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本 书 由 斯 坦 福 大 学 知名 计算 机 科学 家 Jeffrey Ullman 和 Jennifer Widom 合 作 编 写 。 本 书 首先 
介绍 流行 的 关系 数据 库 和 对 象 关 系数 据 库 内 容 ， 涉 及 关系 数据 模型 、E/R 模 型 、UML 模 型 以 
及 对 象 模型 等 高 级 数据 模型 。 然 后 介绍 了 有 关 半 结构 化 数据 组 织 管理 中 比较 流行 的 XML 等 内 
容 ， 既 包括 了 数据 组 织 模型 的 内 容 ， 也 给 出 了 相关 编程 语言 ， 如 XPath，XQuery、XSLT 等 。 

本 书 举 例 丰 富 翔实 ， 既 可 用 作 大 学 本 科 、 研 究 生计 算 机 及 相关 专业 数据 库 课程 的 教科 
书 ， 也 可 用 作 数 据 库 领 域 技术 人 员 的 参考 书 。 
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出 版 者 的 话 | 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 芍 断 性 的 优势 : 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 证 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 华 章 分 社 就 

将 工作 重点 放 在 了 入选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill，Elsevier，MIT，John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum，Bjarne Stroustrup， 
Brain W. Kernighan, Dennis Ritchie, Jim Gray，Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 
“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 时 力 训 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 

电子 邮件 :hzjsj@hzbook.com 

联系 电话 : (010) 88379604 

联系 地 址 :北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 ，100037 





| 译 者 序 


数据 库 已 是 当今 信息 社会 须 奥 不 可 脱离 的 重要 工具 ， 数 据 库 的 教学 也 就 成 为 计算 机 科学 
与 技术 专业 的 一 门 必 修 课程 。 

Jeffrey D. Uliman 教 授 是 斯 坦 福 大 学 计算 机 系 的 资深 教授 ， 自 1980 年 编写 了 其 第 一 本 数据 
库 教 材 《 数 据 库 系统 原理 》 以 来 ， 已 出 版 过 多 本 数据 库 系统 方面 的 教材 。 该 书 是 他 在 斯 坦 福 
大 学 计算 机 系 对 大 学 生 教授 的 第 一 门 数据 库 课程 (CS145) 中 使 用 的 教材 ，Ullman 教 授 在 第 2 
版 出 版 4 年 后 ， 对 其 作 了 更 新 又 出 版 了 第 3 版 。 与 第 2 版 相 比 ， 第 3 版 不 仅 重新 组 织 了 章节 从 而 
使 这 本 书 的 系统 性 更 强 ， 而 且 内 容 作 了 大 幅度 增加 ， 包 括 了 有 关 索 引 的 介绍 和 目前 XML 数据 
库 技 术 发 展 的 新 内 容 。 

数据 库 技术 发 展 到 现在 ， 其 一 个 很 大 的 变化 是 ， 数 据 库 不 仅 要 管理 结构 化 的 数据 ， 而 且 
要 管理 更 多 的 半 结 构 化 的 数据 。 本 书 正 是 从 这 个 观点 出 发 ， 将 内 容 分 成 两 大 部 分 : 首先 仍然 
是 流行 的 关系 数据 库 和 对 象 关系 数据 库 内 容 ， 介 绍 了 关系 数据 模型 、E/R 模 型 、UML 模 型 以 
及 对 象 模型 等 高 级 数据 模型 。 然 后 介绍 了 有 关 半 结构 化 数据 组 织 管理 中 比较 流行 的 XML 等 内 
容 ， 既 包括 了 数据 组 织 模型 的 内 容 ， 也 给 出 了 相关 编程 语言 ， 如 XPath、XQuery、XSLT 等 。 

该 版 本 仍然 保留 了 本 教材 的 主要 特点 ， 举 例 丰富 翔实 ， 便 于 教师 教学 和 自学 者 学 习 。 书 
中 在 每 一 节 后 都 给 出 了 大 量 的 练习 题 ， 并 且 标 注 了 习题 的 难 易 程 度 ， 既 便于 教学 安排 ， 又 便 
于 学 生 循 序 渐 进 地 掌握 教学 内 容 。 另 外 ， 在 Jeffrey D. Ullman 教 授 的 主页 (http: Winfolab. 
stanford. edu/~ullman/fcdb.html) 上 还 有 关于 该 课程 实验 的 内 容 ， 这 对 于 本 课程 的 实验 教学 有 
很 大 帮助 。 

本 书 由 岳 丽华 负责 翻译 审 校 了 第 1~ 7 章 ， 金 培 权 负责 翻译 审 校 了 第 8 ~ 10 章 ， 万 寿 红 负 责 
翻译 审 校 了 第 11 ~12 章 。 另 外 ， 参 加 翻译 工作 的 还 有 刘 沾 沾 、 向 小 岩 、 田 明 辉 、 赵 旭 剑 、 秦 
富 童 、 卢 科 、 孙 逸 雪 、 陈 艳 等 。 

限于 水 平 ， 译 文中 难免 有 错误 与 不 足 之 处 ， 欢 迎 读者 批评 指正 。 


译 者 
2009 年 5 月 


在 斯 坦 福 大 学 ， 因 为 实行 的 是 一 年 四 学 期 制 ， 所 以 数据 库 引 论 课 被 分 为 两 门 课程 。 第 一 
门 课程 是 CS145， 该 课程 只 要 求学 生 学 会 使 用 数据 库 系 统 ， 而 不 要 求知 道 DBMS 实 现 的 内 容 。 
CS145 是 CS245 的 预 修 课 ，CS245 介 绍 DBMS 实 现 。 学 生 若 想 进一步 学 习 数 据 库 方面 的 课程 ， 
可 以 学 习 CS345 (此 课 是 理论 课 )、CS346 (此 课 是 DBMS 实 现实 验 课 ) 以 及 CS347 (此 课 介 绍 
事务 处 理 及 分 布 式 数据 库 ) 课程 。 

从 1997 年 开始 ， 我 们 已 经 出 版 了 两 本 配套 教材 。《 数 据 库 系 统 基础 教程 》 是 为 CS145 课 程 
编写 的 。《 数 据 库 系统 实现 》 是 为 CS245 课 程 以 及 部 分 CS346 课 程 编写 的 。 由 于 很 多 学 校 实行 
学 期 制 ， 或 者 是 将 这 两 门 数据 库 引 论 课 组 合成 一 门 引 论 课 ， 因此， 我 们 感到 有 必要 将 上 述 两 
本 书 合成 一 本 《数据 库 系统 全 书 》。 

然而 ， 更 多 的 学 生 是 要 学 会 如 何 使 用 数据 库 系统 ， 而 不 是 如 何 实现 数据 库 系统 ， 所 以 我 
们 继续 将 《数据 库 系 统 全 书 》 的 前 半 部 分 作为 《数据 库 系统 基础 教程 》 出 版 。 在 第 3 版 中 ， 介 
绍 了 很 多 新 内 容 ， 并 且 对 编写 思路 有 所 调整 。 当 前 ， 数 据 库 系统 有 两 个 重要 模型 ， 关系 模型 
和 半 结 构 模 型 (XML)。 因 此 ， 我 们 决定 将 面向 对 象 数据 库 从 原来 的 单独 一 章 改 为 设计 和 对 象 
关系 系统 章节 中 的 内 容 。 


第 3 版 结构 


在 简短 的 第 1 章 介绍 之 后 ， 第 2 一 4 章 中 讨论 关系 模型 。 第 4 章 讨 论 高 级 模型 ， 除 了 E/R 模 型 
之 外 ， 还 讨论 UML (统一 建 模 语言 )。 第 4 章 中 还 包括 ODL 的 简单 介绍 ， 主 要 是 将 它 用 作 关 系 
数据 库 模式 的 设计 语言 。 在 本 书 的 Web 站 点 上 有 更 多 有 关 ODL 和 OQL 的 介绍 。 

本 版 更 新 了 函数 依赖 和 多 值 依 赖 的 内 容 ， 并 作为 第 3 章 的 主题 。 这 里 ， 假 定 函数 依赖 在 其 
右 部 有 一 组 属性 集 。 另 外 还 给 出 了 一 些 算法 ,包括 “chase”， 该 算法 允许 对 依赖 进行 操作 。 
第 3 章 对 3NF 作 了 进一步 讨论 ， 包 括 3NF 综 合算 法 ， 以 明确 3NF 和 BCNF 之 间 的 区 别 是 什么 。 

第 5 章 除了 讨论 上 一 版 的 关系 代数 内 容 外 ， 还 增加 了 上 一 版 第 10 章 中 的 Datalog 部 分 内 容 。 
有 关 Datalog 中 的 递归 内 容 ， 或 者 放 人 网 站 ， 或 者 放 人 了 本 版 第 10 章 中 有 关 SQL 的 递归 中 讨论 。 

第 6~ 10 章 讨论 SQL 程序 设计 的 有 关内 容 ， 是 由 上 一 版 第 6、7、8 章 及 部 分 第 10 章 内 容重 
新 组 织 而 成 的 。 有 关 索 引 和 视图 的 内 容 单 独 组 织 为 第 8 章 ， 并 且 讨 论 了 一 些 重要 的 新 课题 ， 包 
括 物化 视图 和 索引 的 自动 选择 等 。 

第 9 章 基于 上 一 版 的 第 8 章 〈 艇 人 式 SQL) ， 并 新 增加 了 有 关 三 层 体 系 结构 一 节 。 另 外 ， 还 
扩展 了 对 JDBC 的 讨论 ， 并 加 入 了 新 的 PHP 内 容 。 

第 10 章 收集 了 一 些 有 关 SQL 的 高 级 课题 。 除 涵盖 上 一 版 第 8 章 中 有 关 授 权 的 内 容 和 第 10 章 
中 有 关 SQL 的 递归 的 内 容 外 ， 大 部 分 内 容 是 有 关 航 套 关 系 模型 (上 一 版 的 第 4 章 ) 和 SQL 的 对 
象 关 系 特 征 (上 一 版 的 第 9 章 ) 的 。 

第 11 章 和 第 12 章 讨论 XML 以 及 基于 XML 的 系统 。 除 了 包括 上 一 版 第 4 章 最 后 的 部 分 内 容 
外 ， 其 他 内 容 都 是 新 的 。 第 11 章 讨论 建 模 ， 包 括 DTD 以 及 XML 模式 。 第 12 章 讨论 程序 设计 ， 
包括 XPath、XQuery 和 XSLT 等 。 


VI 


如 何 使 用 本 书 


本 书 的 内 容 很 适合 一 学 期 ( 半 学 年 ) 有 关 数 据 库 建 模 和 程序 设计 的 课程 。 如 果 只 有 四 分 
之 一 学 年 的 时 间 ， 那 么 需要 省 略 某 些 内 容 。 我 们 认为 第 2~7 章 是 核心 内 容 。 虽 然 我 们 认为 每 
一 个 学 生 都 应 该 从 第 9 章 的 一 节 中 学 会 如 何在 宿主 语言 中 能 入 SQL 语句 ， 但 是 剩余 的 5 章 可 以 

车 如 同 我 们 在 CS145 课 程 中 所 做 的 那样 ， 你 想 给 学 生 一 个 真实 的 数据 库 应 用 设计 和 实现 课 
程 作业 ， 则 应 该 对 本 书 的 讲解 顺序 做 某 些 调整 ， 较 早 开始 对 SQL 的 介绍 。 虽 然 学 生 在 做 数据 
库 设计 时 需要 规范 化 知识 ,但 可 以 推迟 有 关 函 数 依赖 的 介绍 。 


预备 知识 


我 们 曾经 将 此 书 作 为 本 科 生 和 一 年 级 研究 生 所 修 课程 的 教材 。 正 常情 况 下 ， 该 课程 是 二 
年 级 课程 ， 在 此 之 前 已 学 习 过 : (1) 数据 结构 、 算 法 、 离 散 数学 ，(2) 软件 系统 、 软 件 工 程 
和 程序 设计 语言 等 。 最 重要 的 是 学 生 至 少 要 对 如 下 内 容 有 基本 的 理解 : 代数 表达 式 和 代数 定 
律 ， 逻 辑 ， 基 本 的 数据 结构 ， 面 向 对 象 程序 设计 概念 和 程序 设计 环境 。 可 是 ， 我 们 认为 最 好 
修 完 标准 的 计算 机 科学 专业 三 年 级 课程 后 再 使 用 本 书 作 教材 。 


习题 

本 书 几 乎 在 每 一 节 都 包括 大 量 的 习题 ， 我 们 用 感叹 号 对 难题 做 了 标记 ， 对 最 难 的 习题 用 
双 感 叹 号 做 了 标记 。 
网 上 支持 


本 书 的 网 址 是 : 

http: Winfolab.stanford.edu/~ullman/fcdb.html 

该 网 站 包括 勘误 表 及 支持 材料 。 这 里 还 有 我 们 每 次 教授 CS145 课 程 的 笔记 ， 包 括 相关 的 作 
业 、 课 程 实验 及 考卷 等 。 另 外 ， 我 们 还 把 第 3 版 中 没有 出 现 的 第 2 版 的 材料 放 在 网 站 上 。 


第 2 版 和 第 3 版 的 对 照 


下 表 列 出 了 第 2 版 章节 与 第 3 版 章节 的 对 照 。 


EEENEENENENIES 
Ll .2 1 2 1.3 1.3 2.1 4.1 2.2 
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第 l 章 数据 库 系 统 世 界 


在 当今 的 生活 中 数据 库 已 是 每 一 项 业务 的 基础 。 无 论 何 时 访问 一 个 提供 信息 的 Web 站 点 一 一 
不 论 这 个 站 点 是 著名 的 Goolge、Yahoo!、Amozon.com 还 是 成 千 上 万 较 小 的 站 点 一 一 都 有 一 个 
数据 库 为 用 户 的 信息 访问 提供 服务 。 企 业 也 将 其 所 有 重要 的 记录 存放 在 数据 库 中 进行 维护 。 
数据 库 同样 也 应 用 在 很 多 科学 研究 的 核心 中 。 天 文学 家 、 人 类 基因 研究 者 、 探 索 蛋 白质 医药 
性 质 的 生化 学 家 ， 以 及 其 他 很 多 科学 活动 中 获取 的 数据 也 是 用 数据 库 表 示 的 。 

数据 库 的 能 力 来 自 于 已 发 展 了 数 十 年 的 知识 和 技术 ， 这 些 知识 和 技术 蕴藏 在 名 为 数据 库 
营 理 系统 (database management system) 的 软件 中 。 该 软件 也 叫做 DBMS ， 或 更 通俗 地 称 为 
“数据 库 系统 "。DBMS 是 一 个 能 有 效 建立 和 维护 大 量 数据 的 强大 工具 ， 并 且 能 安全 地 长 期 保 
存 这 些 数据 。 数 据 库 系 统 是 最 复杂 的 软件 系统 之 一 。 本 书 中 ， 读 者 将 学 习 如 何 设 计数 据 库 ， 
如 何 用 各 种 程序 语言 和 DBMS 一 起 编写 应 用 程序 ， 以 及 如 何 设计 DBMS 本 身 。 


1.1 数据 库 系 统 的 发 展 


数据 库 是 什么 ? 本质 上 讲 ， 数 据 库 就 是 信息 的 集合 。 该 集合 可 以 存在 很 长 时 间 ， 通 常 是 
很 多 年 。 一 般 来 讲 ， 数 据 库 是 指 由 DBMS 管 理 的 数据 的 集合 。DBMS 需 要 有 如 下 功能 : 

1. 允许 用 户 使 用 特殊 的 数据 定义 语言 (data-definition language) 建立 新 的 数据 库 ， 并 说 
明 它 们 的 模式 (schema) 即 数据 的 逻辑 结构 。 

2. 使 用 合适 的 查询 语言 (query language) 或 数据 操作 语言 (data-manipulation language)， 
为 用 户 提供 查询 (query,“ 查 询 ” 是 数据 库 关 于 数据 申请 的 术语 ) 和 更 新 (modify) 数据 的 
能 力 。 

3. 支持 超大 数据 量 ( 吉 字 节 或 更 多 ) 数据 的 长 时 间 存 储 ， 并 且 在 数据 查询 和 更 新 时 支持 
对 数据 的 有 效 存 取 。 

4. 具有 持久 性 ， 在 面 对 各 种 故障 、 错 误 或 用 户 错误 地 使 用 数据 库 时 ， 数 据 库 的 恢复 保证 
了 数据 的 一 致 性 。 

5. 控制 多 个 用 户 对 数据 的 同时 存 取 ， 不 允许 一 个 用 户 的 操作 影响 另 一 个 用 户 〈 称 作 独 立 
性 ，isolation) ， 也 不 允许 对 数据 的 不 完整 操作 ( 称 作 原 子 性 ，atomicity ) 。 


1.1.1 早期 的 数据 库 管理 系统 

第 一 个 商用 数据 库 管 理 系统 出 现在 20 世 纪 60 年 代 末 。 这 些 系统 都 是 来 自 于 文件 系统 ， 它 
们 提供 某 些 上 面 提 到 的 第 (3) 项 功能 : 文件 系统 可 以 长 期 地 存储 数据 ， 并 且 人 允许 存储 大 数据 量 
数据 。 可 是 ， 如 果 数 据 不 做 备份 ， 文 件 系 统 通常 并 不 保证 数据 不 会 丢失 。 当 不 知道 数据 项 在 
某 个 文件 中 的 存储 位 置 时 ， 文 件 系 统 也 不 提供 数据 的 有 效 访问 。 

文件 系统 不 直接 支持 上 述 第 (2) 项 功能 ， 即 没有 对 文件 的 查询 语言 。 对 第 (1) 项 功能 的 支持 
( 即 数据 模式 的 支持 ) 也 只 限于 文件 目录 结构 的 建立 。 对 于 功能 (4)， 文 件 系统 也 不 能 满足 ， 没 
有 备份 的 数据 可 能 会 丢失 。 最 后 ， 文 件 系统 也 不 满足 功能 (5)。 当 有 多 个 用 户 或 进程 对 文件 并 
发 访问 时 ， 文 件 系统 不 能 防止 两 个 用 户 同 时 对 同一 个 文件 的 修改 ， 于 是 将 出 现 一 个 用 户 的 修 
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改 被 丢失 的 情形 。 

DBMS 第 一 批 重要 的 应 用 是 数据 由 很 多 小 数据 项 组 成 ， 并 且 完 成 很 多 查询 或 修改 。 下 面 
是 一 些 例子 。 

1. 银行 系统 : 维护 账目 ， 并 且 保 证 系统 故障 时 不 会 损失 金钱 。 

2. 飞机 订 票 系统 ， 如 同 银行 系统 ， 需 要 保证 数据 不 会 丢失 ,并且 能 够 接受 顾客 发 出 的 大 
量 小 操作 。 

3. 企业 记录 系统 : 雇员 和 税收 记录 、 库 存 、 销 售 记录 ， 大 量 各 种 其 他 类 型 的 信息 ， 这 些 
记录 大 多 是 关键 数据 。 

早期 的 DBMS 需 要 程序 员 直 接 面 对 数据 的 存储 格式 。 这 些 数 据 库 系统 使 用 多 个 不 同 的 数 
据 模 型 描述 数据 库 中 的 信息 结构 ， 主 要 有 基于 树 结构 的 “层次 ”模型 和 基于 图 的 “网 状 ” 模 
型 。 网 状 模型 通过 CODASYL (数据 系统 语言 委员 会 ) 报告 在 20 世 纪 60 年 代 示 被 标准 化 。 

早期 模型 和 系统 的 一 个 问题 是 不 支持 高 级 查询 语言 。 例 如 ，CODASYL 查 询 语言 的 语句 只 
允许 用 户 通过 数据 元 素 间 的 指针 ， 从 一 个 数据 元 素 跳 到 另 一 个 数据 元 素 。 因 此 ， 即 使 是 写 一 
个 非常 简单 的 查询 程序 ， 用 户 也 要 花费 很 大 的 气力 。 


1.1.2 关系 数据 库 系 统 

随 着 1970 年 Ted Codd 著 名 论文 的 发 表 ， 数 据 库 系统 有 了 重大 的 改变 。Codd 提 出 数据 库 
系统 应 该 将 数据 组 织 成 表 的 形式 呈现 给 用 户 。 这 种 形式 称 作 关 系 (relation)。 在 关系 的 后 面 ， 
可 能 是 一 个 复杂 的 数据 结构 ， 实 现 对 各 种 查询 问题 的 快速 响应 。 但 是 ， 不 同 于 早期 数据 库 系 
统 的 程序 员 ， 关 系数 据 库 的 程序 员 将 不 必 关 心 数 据 的 存储 结构 ， 查 询 可 以 用 非常 高 级 的 语言 
表述 ， 因 此 可 以 极 大 地 增加 数据 库 程 序 员 的 工作 效率 。 本 书 的 大 部 分 内 容 都 与 数据 库 系 统 的 
关系 模型 相关 。SQL (结构 化 查询 语言 ) 这 一 最 重要 的 基于 关系 模型 的 查询 语言 ， 将 广泛 地 
应 用 在 本 书 中 。 

到 1990 年 ， 关 系数 据 库 系统 已 成 为 标准 。 但 是 ， 数 据 库 领 域 在 继续 发 展 ， 数 据 管理 的 新 
课题 、 新 方法 不 断 出 现 。 面 向 对 象 特征 已 经 渗 和 人 关系 模型 。 有 些 大 型 数据 库 已 不 再 使 用 关系 
方法 组 织 。 后 续 部 分 将 讨论 数据 库 系 统 的 某 些 新 趋势 。 


1.1.3 越 来 越 小 的 系统 

最 初 ，DBMS 是 运行 在 大 型 计算 机 上 的 既 庞 大 又 昂贵 的 软件 系统 。 因 为 存储 吉 字 市 
(gigabyte) 数据 需要 大 的 计算 机 系统 ， 所 以 大 容量 是 必需 的 。 如 今 ; 单个 磁盘 的 容量 就 可 达 
若干 吉 字 市 ，DBMS 运 行 在 个 人 计算 机 上 已 成 为 可 能 。 因 此 ， 关 系 模型 数据 库 可 以 在 非常 小 
的 机 器 上 运行 。 而且， 如 同 以 前 的 电子 表格 和 字 处 理 系 统 ， 关系 数据 库 正在 成 为 计算 机 应 用 
的 普通 工具 。 

男 一 个 重要 趋势 是 文档 的 应 用 ,这些 应 用 中 常常 使 用 XML (扩展 的 模型 语言 ，eXtensible 
Modeling Language)。 大 量 小 文档 的 集合 可 以 如 同 数 据 库 ， 而 对 这 些 文档 的 查询 和 操作 不 同 
于 原来 的 关系 数据 库 系 统 。 


1.1.4 越 来 越 大 的 系统 
另 一 方面 ， 吉 字 节 数据 量 还 不 够 大 。 企 业 数据 库 里 可 以 存储 太 字 节 〈10'" 字 节 ) 数据 。 而 
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且 ， 还 有 很 多 存储 帖 字 节 (10" 字 节 ) 数据 的 数据 库 正在 使 用 ， 一 些 重要 的 例子 如 下 ;: 

1. Google 存 储 有 帕 字 节 数 据 。 这 些 数据 不 是 存放 在 传统 DBMS 中 ， 而 是 用 对 搜索 引擎 优 
化 的 专用 数据 结构 形式 存储 。 

2. 卫星 发 送 帕 字 节 的 数据 存储 在 专用 系统 中 。 

3. 一 张 图 片 的 存储 空间 大 于 上 千 个 文字 空间 。1000 个 字 可 以 用 5 到 6 千 字 节 存储 。 而 普通 
的 一 张 图 片 需要 更 多 存储 空间 。Flickr 存 储 有 数 百 万 张 图 片 ， 并 支持 对 这 些 图 片 的 查找 。 亚 马 
撑 的 数据 库 也 存储 了 数 百 万 张 产 品 图 片 。 

4. 图 片 占有 很 多 存储 空间 ， 电 影 占用 的 存储 空间 更 大 。 一 个 小 时 的 电影 就 需要 一 吉 字 节 。 
YouTube 站 点 拥有 成 千 上 万 ,或 百 万 个 电影 供用 户 观看 。 

5. 对 等 (peer-to-peer) 文件 共享 系统 使 用 普通 的 大 型 计算 机 网 络 存储 和 分 发 各 种 数据 。 
虽然 网 络 中 每 个 节点 只 能 存储 几 百 吉 的 数据 ， 但 整个 网 络 中 数据 库 的 数据 非常 巨大 。 


1.1.5 信息 集成 

建立 和 维护 数据 库 这 个 老 问题 现在 变 成 了 信息 集成 (information integration) 问题 : 把 包 
含 在 多 个 相关 数据 库 中 的 信息 连接 在 一 起 成 为 一 个 整个 数据 库 。 例 如 : 一 个 具有 多 个 分 部 的 
大 公司 ， 每 个 分 部 都 建 有 各 自 独立 的 产品 或 雇员 数据 库 。 或 许 有 些 分 部 原来 还 是 来 自 其 他 独 
立 公 司 ， 他 们 有 自己 的 行事 方法 。 这 些 分 部 可 能 使 用 不 同 的 DBMS ， 其 信息 具有 不 同 的 结构 
形式 。 他 们 可 能 使 用 不 同 的 术语 表达 同一 个 事物 ， 或 者 使 用 同一 个 术语 表示 不 同 的 事物 。 事 
情 可 能 更 糟糕 ， 已 有 的 一 些 应 用 由 于 使 用 各 自 的 数据 库 使 得 他 们 不 可 能 被 废弃 。 

结论 是 ， 有 必要 在 已 存在 的 数据 库 之 上 建立 某 种 数据 结构 ， 以 便于 将 分 布 在 他 们 之 中 的 
信息 整合 。 通 常 解决 该 问题 的 方法 是 创建 数据 仓库 (data warehouse) ， 通 过 合适 的 转换 技术 ， 
将 来 自 多 个 遗留 数据 库 的 信息 周期 性 地 复制 到 中 央 数 据 库 。 另 一 种 方法 是 实现 协调 器 
(mediator) 或 中 间 件 (middljeware) ， 其 功能 是 支持 各 类 数据 库 数据 的 整合 模型 ， 实 现 整合 模 
型 和 实际 数据 库 模 型 间 的 信息 转换 。 


1.2 数据 库 管 理 系统 概述 


图 1-1 描 述 了 一 个 完整 的 DBMS 结 构 ， 其 中 单线 框 表示 系统 构成 ， 双 线 框 表示 内 存 中 的 数 
据 结 构 ， 实 线 表示 控制 和 数据 访 ， 虚 线 只 表示 数据 流 。 由 于 图 很 复杂 ， 在 此 分 几 个 步骤 来 考 
虑 细节 。 首 先 ， 在 顶部 有 两 个 命令 源 将 命令 发 给 DBMS: 

1. 通常 的 用 户 和 应 用 程序 ， 发 出 查询 数据 或 修改 数据 命令 。 

2. 数据 库 管 理 员 (Administrator)， 一 个 人 或 一 批 人 ， 负 责 数 据 库 结构 或 模式 (schema)。 


1.2.1 数据 定义 语言 命令 

第 二 种 命令 的 处 理 比较 简单 ， 图 1-1 的 右上 方 显示 命令 行踪 的 开始 。 例 如 ， 大 学 注册 数据 
库 的 管理 员 或 DBA， 可 以 确定 该 数据 库 中 应 该 有 一 个 表 或 关系 ， 该 关系 的 列 是 由 学 生 、 该 学 
生 选 修 的 课程 和 该 学 生 该 课程 的 成 绩 组 成 。DBA 还 可 以 确定 有 效 成 绩 只 能 是 A、B、C、D 和 F。 
这 些 结构 和 约束 信息 都 是 数据 库 模 式 的 一 部 分 。 在 图 1-1 中 显示 为 由 DBA 输 入 。 由 于 这 些 命令 
能 深 深 地 影响 数据 库 ， 所 以 DBA 必 须 具有 特定 的 权限 才能 执行 模式 修改 命令 。 模 式 修改 数据 
定义 语言 (DDL) 命令 由 DDL 处 理 器 分 析 ， 并 且 传 送 给 执行 引擎 ， 然 后 执行 引擎 再 通过 索引 / 
文件 /记录 管理 器 去 修改 元 数据 (metadata) ， 也 就 是 数据 库 的 模式 信息 。 
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用 户 /应 用 数据 库 管理 员 





DDL 命 令 
DDL 编 译 器 
统计 数 据 


日 志 与 恢复 之 控 表 
AT 


和 记录 请 求 


图 1-1 数据 库 管理 系统 组 成 


1.2.2 查询 处 理 概述 

与 DBMS 交 互 最 主要 的 工作 是 沿 着 图 1-1 左 边 的 路 径 。 用 户 或 应 用 程序 使 用 数据 操作 语言 
(DML) 启动 一 些 不 影响 数据 库 模式 的 操作 ， 但 是 这 些 操作 可 能 会 影响 数据 库 的 内 容 (例如 修 
改 操 作 ) ， 或 者 是 从 数据 库 中 抽取 数据 (例如 查询 操作 )。DML 语 言 由 两 个 独立 的 子 系统 处 理 ， 
有 关 这 两 个 子 系统 的 叙述 如 下 。 

查询 处 理 

查询 通过 查询 编译 器 (query compiler) 完成 语法 分 析 和 优化 。 编 译 的 结果 是 查询 计划 
(query plan) 或 是 由 DBMS 执 行 并 获得 查询 结果 的 操作 序列 ， 它 们 将 被 送 给 执行 引擎 
(execution engine) 。 执 行 引 擎 向 资源 管理 器 发 出 一 系列 获取 小 块 数据 的 请 求 ， 典 型 的 小 块 数 
据 关 系 是 记录 或 元 组 。 资 源 管 理 器 知道 数据 文件 (data file， 存 放 关 系 的 文件 )、 数 据 文件 的 
格式 和 记录 大 小 以 及 索引 文件 (index file) 等 。 这 些 信 息 对 于 快速 从 数据 文件 中 找到 相应 数 
据 元 素 是 有 用 的 。 

数据 请 求 又 被 传送 给 缓冲 区 管理 器 (buffer manager)。 缓 冲 区 管理 器 的 任务 是 从 二 级 存储 
器 (通常 是 磁盘 ， 永久 地 保存 数据 ) 中 获取 数据 送 入 主 存 缓冲 区 中 。 一 般 情 况 下 ， 页 或 “ 磁 
盘 块 ”是 缓冲 区 和 磁盘 间 的 传送 单位 。 

为 了 从 磁盘 中 得 到 数据 ， 缓 冲 区 管理 器 与 存储 器 管理 器 进行 通信 。 存 储 器 管理 器 可 能 包 
含 操作 系统 命令 ， 但 是 更 典型 的 是 DBMS 直 接 向 磁盘 控制 器 发 命令 。 
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事务 处 理 

查询 或 其 他 DML 操 作 被 组 织 成 事务 (transaction)。 事 务 是 必须 原子 性 执行 的 单位 ， 执 行 
中 的 事务 之 间 还 必须 互相 隔离 。 任 何 一 个 查询 或 修改 操作 本 身 就 可 以 是 一 个 事务 。 另 外 ， 事 
务 的 执行 必须 持久 (durable)， 也 就 是 说 任何 已 完成 事务 的 作用 必须 被 保持 ， 即 使 是 事务 刚刚 
完成 系统 就 失败 时 也 应 如 此 。 事 务 处 理 器 被 分 成 两 个 主要 部 分 : 

1. 并 发 控制 管理 器 (concurrency-control manager) 或 调度 器 (scheduler)， 保 证 事务 的 原 
子 性 和 独立 性 。 

2. 日 志 (logging) 和 恢复 管理 器 (recovery manager)， 负 责 事务 的 持久 性 。 


1.2.3 存储 器 和 缓冲 区 管理 器 

数据 库 数据 平常 存储 在 二 级 存储 器 中 。 计 算 机 系统 中 的 “二 级 存储 器 ”一 般 指 磁盘 。 可 
是 ， 对 数据 的 操作 只 能 在 主 存 中 执行 。 存 储 器 管理 器 (storage manager) 的 任务 就 是 控制 数 
据 在 磁盘 上 的 位 置 存放 和 在 磁盘 与 主 存 间 的 移动 。 

在 一 个 简单 数据 库 系统 中 ， 存 储 器 管理 器 可 以 就 是 操作 系统 下 的 文件 系统 。 可 是 ， 为 了 提 
高 效率 ，DBMS 和 常常 直接 控制 磁盘 上 的 存储 ， 至 少 是 在 某 些 环境 下 如 此 。 存 储 器 管理 器 保持 跟 
踪 磁 盘 上 的 文件 位 置 ， 根 据 请 求 从 缓冲 区 管理 器 中 获取 含有 请 求 文件 的 一 个 或 多 个 磁盘 块 。 

缓冲 区 管理 器 负责 把 可 用 主 存 分 割 成 缓冲 区 (buffer) ， 缓 神 区 是 包含 若干 个 页 面 的 区 域 ， 
其 中 可 以 传输 磁盘 块 。 于 是 ， 所 有 需要 从 磁盘 中 获取 信息 的 DBMS 组 件 ， 都 或 是 直接 或 是 通 
过 执行 引擎 的 方式 ， 与 缓冲 区 和 缓 促 区 管理 器 交互 。 各 个 组 件 可 能 需要 的 信息 种 类 有 : 

1. 数据 : 数据 库 本 身 的 内 容 。 

2. 元 数据 ; 描述 数据 库 结构 及 其 约束 的 数据 库 模式 。 

3. 日 志 记 录 : 对 数据 库 新 近 修 改 的 信息 ， 该 信息 支持 数据 库 的 持久 性 。 

4. 统计 数据 : 由 DBMS 收 集 和 存储 的 关于 数据 特征 的 数据 。 例 如 ， 数 据 库 大 小 、 数 据 库 
中 的 值 、 数 据 库 中 的 各 种 关系 和 其 他 成 分 。 

5. 索引 ; 支持 对 数据 库 中 数据 有 效 存 取 的 数据 结构 。 


1.2.4 事务 处 理 

通常 将 一 个 或 一 组 数据 库 操作 组 成 一 个 事务 。 事 务 的 执行 满足 原子 性 ， 并 且 与 其 他 事务 
的 执行 互相 隔离 。 另 外 ，DBMS 还 要 保证 事务 的 持久 性 : 已 完成 事务 的 工作 永 不 丢失 。 事 务 
管理 器 (transaction manager) 接收 来 自 应 用 的 事务 命令 (transaction command) ， 这 些 命令 
告诉 事务 管理 器 事务 何 时 开始 ， 何 时 结束 ， 以 及 应 用 期 望 的 信息 〈 例 如 ， 某 些 应 用 可 能 不 需 
要 原子 性 )。 事 务 处 理 器 执行 如 下 一 些 任务 : 

1. 记 日 志 (logging): 为 了 保证 持久 性 ， 数 据 库 的 每 一 个 变化 都 单独 地 记录 在 磁盘 上 。 日 
志 管 理 器 (log manager) 遵循 一 种 设计 原则 ， 无 论 何 时 系统 失败 或 “崩溃”"， 恢 复 管理 器 都 能 
够 通过 检查 日 志 中 的 修改 记录 ， 把 数据 库 恢 复 到 某 个 一 致 状态 。 日 志 管 理 器 先 把 日 志 写 入 缓 
冲 区 ， 然 后 与 缓冲 区 管理 器 协商 以 确保 缓冲 区 在 合适 的 时 间 被 写 入 磁盘 (磁盘 数据 可 以 在 系 
统 崩溃 后 幸存 下 来 ) 。 

2. 并 发 控制 (concurrency control) : 事务 必须 独立 执行 。 但 是 在 大 多 数 系统 中 ， 很 多 事 
务 都 是 同时 在 执行 。 因 此 ， 调 度 器 (并 发 控制 管理 器 ) 必须 保证 多 个 事务 的 单个 动作 是 按 某 
个 次 序 在 执行 ， 按 该 次 序 执行 的 效果 应 该 与 系统 一 次 只 执行 一 个 事务 一 样 。 典 型 的 调度 器 是 
通过 在 数据 库 的 某 些 片 断 上 加 锁 (lock) 的 方式 工作 。 锁 将 防止 两 个 事务 用 不 正确 的 交互 方 
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式 对 同一 数据 片段 存 取 。 如 图 1-1 所 示 ， 锁 通常 保存 在 主 存 的 锁 表 (lock table) 中 ,调度 器 通 
过 阻止 执行 引擎 对 已 加 锁 的 数据 库 内 容 的 存 取 来 影响 查询 和 其 他 数据 库 操 作 。 

3. 消除 死 锁 (deadlock resolution): 当 事 务 通过 调度 器 获取 锁 以 竞争 其 所 需 的 资源 时 ， 系 
统 可 能 会 陷入 一 种 状态 。 在 该 状态 中 ， 因 为 每 个 事务 需要 的 资源 都 被 男 一 个 事务 占有 ， 所 以 
没有 一 个 事务 能 够 继续 执行 。 此 时 ， 事 务 管理 器 有 责任 调解 ， 并 删除 (“ 回 深 ”或 “终止 ”) 
一 个 或 多 个 事务 ， 以 便 其 他 事务 可 以 继续 执行 。 


事务 的 ACID 性 质 
正确 实现 的 事务 通常 应 满足 以 下 “ACID 性 质 ”. 
。“A”(atomicity) 表示 “原子 性 "， 事 务 的 操作 要 么 全 部 被 执行 ， 要 么 全 部 不 被 执行 。 
。“I” (isolation) 表示 “独立 性 "， 每 个 事务 必须 如 同 没有 其 他 事务 在 同时 执行 一 样 被 
执行 。 


，“D”(durability) 表示 “持久 性 "， 一 旦 事务 已 经 完成 ， 则 该 事务 对 数据 库 的 影响 就 
永远 不 会 丢失 。 

。“C”(consistency) 表示 “一 致 性 " 。 也 就 是 说 ， 所 有 数据 库 中 数据 元 组 之 间 的 联系 具 
有 一 致 性 约束 ， 或 说 满足 一 致 性 期 望 例如， 事务 执行 结束 后 账户 余额 不 能 是 负数 ) ， 
即 期 望 事 务 能 保持 数据 库 的 一 致 性 。 





1.2.5 查询 处 理 器 

用 户 可 以 感受 到 的 最 影响 系统 性 能 的 DBMS 部 分 是 查询 处 理 器 (query processor)。 图 1-1 
中 查询 处 理 器 用 两 个 组 件 表示 : 

1. 查询 编译 器 : 它 把 查询 转换 成 称 作 查 询 计 划 (query plan) 的 内 部 形式 。 查 询 计划 是 在 
数据 上 的 操作 序列 。 通 常 ， 查 询 计 划 中 的 操作 用 ”关系 代数 ”运算 实现 。2.4 节 将 讨论 关系 代 
数 。 查 询 编 译 器 主要 由 以 下 三 个 模块 组 成 : 

a) 查询 分 析 器 (query parser) : 查询 分 析 器 是 从 查询 的 文本 结构 中 构造 一 个 查询 树 
结构 。 

b) 查询 预 处 理 器 (query preprocessor): 查询 预 处 理 器 对 查询 进行 语义 检查 例如， 确保 
查询 中 提 到 的 关系 确实 存在 )， 并 且 将 查询 语法 树 转 换 成 表示 初始 查询 计划 的 代数 操作 符 树 。 

c) 查询 优化 器 (query optimizer) : 查询 优化 器 将 查询 初始 计划 转换 成 在 实际 数据 上 执行 
最 有 效 的 操作 序列 。 

查询 编译 器 使 用 关于 数据 的 元 数据 和 统计 数据 ， 以 确定 哪 种 操作 序列 最 快 。 例 如 ， 索 引 
是 一 种 特殊 的 便于 数据 存 取 的 数据 结构 ， 如 果 索 引 存 在 ， 并 且 给 定 索引 数据 项 值 ， 则 利用 索 
引 的 查询 计划 将 比 其 他 计划 更 快 。 

2. 执行 引 掌 (execution engine) : 执行 引擎 负责 执行 选 定 查询 计划 的 每 一 步 。 执 行 引 警 与 
DBMS 中 的 其 他 大 多 数组 件 都 直接 地 或 通过 缓冲 区 交互 访问 。 为 了 对 数据 进行 操作 ， 它 必须 
从 数据 库 中 将 数据 取 到 缓冲 区 ， 必 须 与 调度 器 交互 访问 以 避免 存 取 已 加 锁 的 数据 ， 它 还 要 与 
日 志 管 理 器 交互 访问 以 确保 所 有 数据 库 的 变化 都 正确 地 被 日 志 记 录 。 


1.3 本 书 概述 
本 书 将 数据 库 学 习 分 成 三 部 分 ， 这 一 节 给 出 每 一 部 分 大 致 包括 的 内 容 。 
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第 一 部 分 : 关系 数据 库 模 型 

关系 模型 是 数据 库 系 统 学 习 的 基础 。 介 绍 了 基本 概念 后 ， 便 进入 关系 数据 库 理论 。 关 系 
数据 库 理论 包括 函数 依赖 《functional dependencies) ， 这 是 一 种 说 明 一 类 数据 唯一 地 由 另 一 类 
数据 确定 的 形式 化 描述 方法 。 还 包括 规范 化 (normalization)， 它 表示 用 函数 依赖 和 其 他 形式 
的 依赖 改进 关系 数据 库 设 计 的 过 程 。 

这 一 部 分 还 讨论 了 高 级 的 数据 库 设 计 方 法 。 这 种 方法 包括 实体 一 关系 (E/R) 模型 、 统 一 
模型 语言 (UML) 和 对 象 定义 语言 (ODL)。 其 目的 是 在 关系 DBMS 设 计 实 现 之 前 ， 非 形式 化 
地 探讨 有 关 设 计 问 题 。 

第 二 部 分 ,关系 数据 库 程 序 设计 

这 一 部 分 讨论 如 何 对 关系 数据 库 进 行 查询 和 更 新 。 在 介绍 了 基于 代数 和 有 逻辑 的 (分别 是 
关系 代数 和 Datalog) 抽象 程序 语言 之 后 ， 专 注 于 讨论 关系 数据 库 标 准 语言 SQL。 既 介绍 SQL 
的 基本 功能 ， 也 介绍 它 的 一 些 特有 功能 ， 包 括 约 束 声明 和 触发 器 (主动 数据 库 元 素 ) 、 索 引 和 
其 他 增加 性 能 的 结构 、 将 SQL 语句 组 成 事务 、 数 据 安 全 和 私有 性 等 。 

该 部 分 还 讨论 了 SQL 如 何 用 于 完整 的 系统 。 特 别 是 如 何 将 SQL 与 常用 的 或 宿主 (host ) 
语言 结合 ， 通 过 SQL 调用 在 数据 库 和 常用 语言 之 间 传 递 数据 。 讨 论 了 多 种 不 同 的 数据 连接 
方式 ， 包 括 风 入 式 SQL、 持 久 存 储 模 块 (PSM ) 、 调 用 级 接口 (CLI) 、Java 数 据 库 连 接 
(JDBC) 和 PHP。 

第 三 部 分 ， 半 结构 化 数据 的 建 模 和 程序 设计 

Web 的 无 处 不 在 已 使 得 层次 结构 数据 管理 重新 获得 重视 ， 这 是 因为 Web 标 准 是 基于 和 骨 套 的 
标记 元 素 ( 半 结 构 化 数据 ，semistructured data) 。 这 里 引入 了 XML 和 它 的 模式 标记 文档 类 型 
定义 (DTD) 以 及 XML 模式 。 也 讨论 了 XML 的 三 种 查询 语言 : XPath、XQuery 和 可 扩展 的 样 
式 表 语言 转换 (XSLT)。 


1.4 参考 文献 


今天 ， 联 机 可 查询 的 资料 基本 覆盖 了 所 有 关于 数据 库 系 统 的 最 新 文章 。 因 此 ， 本 书 不 打 
算 给 出 完全 的 引用 ， 而 仅仅 给 出 历史 上 重要 的 文章 和 主要 的 二 级 查询 源 或 用 户 的 综述 。 
Michael ley[5] 已 给 出 了 可 查找 的 数据 库 研究 论文 的 索引 ， 并 且 最 近 被 扩展 为 包含 来 自 很 多 领 
域 的 参考 。Alf-christian Achilles 维 护 了 一 个 与 数据 库 领 域 有 关 的 可 查找 的 索引 目录 [3]。 

对 数据 库 领 域 技术 有 贡献 的 原型 实现 有 很 多 ， 其 中 最 有 名 的 两 个 是 IBM Almaden 研 究 中 
心 的 System R 项 目 [4] 和 伯克利 大 学 的 INGRES 项 目 [7]。 它 们 都 是 早期 的 关系 数据 库 系 统 ， 并 
且 作 为 主流 数据 库 技术 对 关系 型 系统 的 建立 有 帮助 。 很 多 使 该 领域 定型 的 研究 文章 可 在 文献 
[6] 中 找到 。 


2003 年 的 “Lowell 报告 ”[1] 是 关于 关系 数据 库 系 统一 系列 研究 和 指导 报告 中 最 新 的 一 份 。 . 


它 也 引用 了 早期 的 这 类 报告 。 
文献 [2] 和 [8] 中 有 更 多 关于 数据 库 的 理论 。 
1. S. Abiteboul et al., “The Lowell database research self-assessment,” Comm. 


ACM 48:5 (2005), pp. 111-118. http://research.microsoft.com/“gray 
/lowell/LowellDatabaseResearchSelfAssessment.htm 


2. 5S. Abiteboul, R. Hull and V. Vianu, Foundations of Databases, Addison- 
Wesley, Reading, MA, 1995. 
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. http://liinwww.ira.uka.de/bibliography/Database. 
. M. M. Astrahan et al., “System R. a relational approach to database 


management,” ACM Trans. on Database Systems 1:2, pp. 97-137, 1976. 


. http://wuw.informatik.uni-trier.de/“ley/db/index .html . A mir- 


ror site is found at http://www.acm.org/sigmod/dblp/db/index .html. 


. M. Stonebraker and J. M. Hellerstein (eds.), Readings in Database Sys- 


tems, Morgan-Kaufmann, San Francisco, 1998. 


. M. Stonebraker, E. Wong, P. Kreps, and G. Held, “The design and imple- 


mentation of INGRES,” ACM Trans. on Database Systems 1:3, pp. 189— 
222, 1976. 


. J. D. Ullman, Principles of Database and Knowledge-Base Systems, Vol- 


umes 了 and ll, Computer Science Press, New York, 1988, 1989. 





第 2 章 关系 数据 模型 


本 章 将 介绍 最 重要 的 一 种 数据 模型 : 二 维 表 ， 或 者 称 之 为 “关系 "。 首 先 从 总 体 上 对 关系 
数据 模型 进行 概述 。 我 们 给 出 关系 的 基本 术语 并 且 解 释 为 什么 可 以 用 关系 模型 来 描述 各 种 典 
型 的 数据 。 接 下 来 ， 介 绍 SQL 语 言 中 定义 关系 及 其 结构 的 部 分 。 同 时 ， 本 章 也 介绍 关系 代数 。 
可 以 看 到 关系 代数 既 可 以 作为 一 种 查询 语言 一 一 它 使 得 可 以 对 数据 进行 查询 ， 同 时 它 也 是 一 
种 约束 语言 一 一 它 能 对 数据 库 中 的 数据 施加 各 种 形式 的 限制 和 约束 。 


2.1 数据 模型 概述 


在 学 习 数 据 库 系统 的 过 程 中 ,“ 数 据 模型 ”是 最 基本 的 概念 之 一 。 在 下 面 的 简介 中 ， 定 义 
了 一 些 基本 的 术语 并 且 提 到 几 种 最 重要 的 数据 模型 。 


2.1.1 什么 是 数据 模型 

数据 模型 (data model) 是 用 于 描述 数据 或 信息 的 标记 。 它 一 般 由 三 部 分 组 成 : 

1. 数据 结构 (Structure of the data) : 读者 可 能 比较 熟悉 一 些 编程 语言 ， 比 如 C 或 者 Java， 
它们 有 一 些 用 来 描述 程序 中 数据 结构 的 工具 ， 比 如 数组 、 结 构 体 (structs) 或 者 对 象 。 数 据 库 
系统 中 所 讨论 的 数据 结构 指 的 是 一 种 物理 数据 模型 (physical data model) ， 尽 管 它们 与 真正 
用 来 实现 和 执行 数据 的 物理 门 电路 有 很 大 的 差别 。 在 数据 库 世 界 中 ， 数 据 模型 处 于 比 数 据 结 
构 高 的 层次 上 。 有 时 为 了 强调 这 一 点 ， 把 它们 称 为 概念 模型 (conceptual model) 。 稍 后 将 给 
出 一 些 例 子 。 

2. 数据 操作 (operation on the data) : 编程 语言 中 ， 在 数据 上 进行 的 任何 处 理 都 可 以 称 为 
数据 操作 。 但 是 在 数据 库 数据 模型 中 ， 只 能 在 数据 上 附加 一 些 有 限 的 可 执行 的 操作 集 。 比 如 
查询 (query， 检 索 信 息 的 操作 )、 修 改 modification ， 修 改 数据 库 操 作 ) 等 。 这 些 限 制 对 于 
数据 库 系统 来 说 并 不 是 一 个 弱点 ， 而 是 一 个 强 有 力 的 约束 。 通 过 这 些 约束 操作 ， 开 发 者 就 有 
可 能 在 一 个 较 高 的 层次 上 对 数据 库 操作 进行 描述 ， 从 而 使 得 数据 库 管 理 系统 能 够 更 有 效 地 执 
行 这 些 操 作 。 作 为 对 比 ， 在 一 些 通用 编程 语言 (比如 C) 上 ， 通 常 不 可 能 将 一 些 低 效 的 算法 
(比如 冒 泡 排序 ) 优化 到 一 个 更 有 效 的 算法 (比如 快速 排序 )。 

3. 数据 上 的 约束 (constraint on the data) : 在 数据 库 系统 中 ， 数 据 模型 通常 有 一 种 方法 来 
描述 数据 上 的 约束 。 这 些 约束 可 能 很 简单 (比如 一 周 的 每 一 天 只 能 是 从 1 ~ 7 的 整数 或 者 一 部 
电影 最 多 只 能 有 一 个 名 字 ) ， 也 可 能 非常 复杂 ， 我 们 将 在 7.2 节 和 7.3 节 讨论 这 些 约 束 。 


2.1.2 一 些 重要 的 数据 模型 
现今 ， 数 据 库 系统 中 两 种 非常 重要 而 且 比 较 优 秀 的 数据 模型 是 ， 
1. 关系 数据 模型 ， 包 括 对 象 关系 模型 的 拓展 。 
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2 . 半 结 构 化 数据 模型 ， 包 括 XML 和 相关 的 标准 。 
， ”第 一 种 模型 在 现行 的 所 有 商业 数据 库 管 理 系统 中 都 有 出 现 ， 它 也 是 本 章 所 要 讨论 的 重点 。 
第 二 种 数据 模型 ， 其 最 主要 的 是 XML ， 它 是 大 多 数 关 系 DBMS 的 一 个 附加 特征 。 第 11 章 将 讨 
论 这 种 数据 模型 。 


2.1.3 关系 模型 简介 
关系 模型 是 一 种 基于 表 的 数据 模型 ， 图 2-1 就 是 一 个 关系 表 的 例子 。2.2 节 将 详细 讨论 这 种 
模型 。 图 2-1 中 的 关系 或 者 表 用 来 描述 电影 : 


电影 的 名 字 , 电影 制作 的 年 份 ; 电影 的 片 长 ， “Fe Ti oi 1 dome 
以 及 电影 所 属 的 流派 。 这 里 只 列举 了 三 部 电 Star Wars sciFi 
影 的 信息 ， 但 是 可 以 想像 在 真正 的 数据 库 系 Layne' s World 902 | | opeay 
统 中 ， 这 张 表 会 具有 大 量 的 数据 行 ， 一 部 电 图 2-1 示例 关系 

影 对 应 一 行 数据 。 

关系 模型 的 结构 部 分 可 能 看 起 来 很 像 C 中 的 结构 体 数组 ， 表 的 列 的 头 部 是 字段 名 字 ， 而 每 
一 行 表 示 数 组 中 一 个 结构 体 的 值 。 然 而 ， 必 须 强调 的 是 这 种 物理 实现 仅仅 是 表 的 一 种 可 能 的 
物理 数据 结构 的 实现 方式 。 实 际 上 ， 它 并 不 是 一 种 常见 的 描述 关系 的 方法 ， 而 且 对 于 数据 库 
系统 的 研究 有 一 大 部 分 都 是 旨 在 解决 如 何 来 实现 这 样 的 数据 表 。 它 们 主要 的 区 别 在 于 关系 的 
规模 一 一 它们 并 不 是 作为 主 存 结构 来 实现 ， 当 关系 的 规模 很 大 时 ， 其 物理 实现 必须 要 考虑 访 
问 磁盘 上 关系 的 代价 。 

与 关系 模型 联系 在 一 起 的 操作 形成 了 “关系 代数 ”"，2.4 节 将 开始 对 其 讨论 。 代 数 中 的 操作 
都 是 面向 表 的 。 例 如 ， 可 以 要 求 查询 关系 中 某 一 列 具 有 某 个 值 的 所 有 行 。 一 个 具体 的 例子 是 ， 
可 以 从 图 2-1 表 示 的 表 中 找 出 所 有 流派 值 为 “喜剧 ”的 行 。 

关系 数据 模型 的 约束 部 分 会 在 2.5 节 做 一 个 简单 的 介绍 ， 在 第 7 章 将 会 详细 讨论 。 在 这 里 简 
单 地 举 一 个 例子 来 说 明 关 系 中 的 约束 问题 ， 比 如 要 限定 存在 一 个 电影 的 流派 列表 ， 则 所 有 的 
数据 行 最 后 一 列 的 值 必须 属于 这 个 流派 表 。 或 者 限定 (实际 上 不 合理 ) 任何 两 部 电影 的 名 字 
不 能 一 样 ， 因 此 在 表 中 没有 任 两 行 第 一 列 的 值 相同 。 


2.1.4 半 结 构 化 模型 简介 
半 结 构 化 数据 类 似 树 或 者 图 ， 而 非 表 或 <Movies> 


<Movie title="Gone With the Wind"> 





length | genre 





数组 。 目 前 半 结 构 化 数据 最 主要 的 体现 就 是 <Year>1939</Year> 
XML ， 它 利用 一 系列 分 层 嵌 套 的 标签 元 素 ee 
< > 
来 表述 数据 。 它 的 标签 与 HTML 里 面 的 类 似 ， ep 
用 于 标识 不 同 数据 片断 所 扮演 的 角色 ， 这 与 <Movie title="Star Wars"> 
3 3 <Year>1977</Year> 
关系 模型 中 关系 的 列 头 部 功能 类 似 。 举 例 来 pint hh pli 
说 ， 图 2-1 中 的 数据 可 以 用 XML“ 文 档 ” 的 <Genre>sciFi</Genre> 
形式 描述 ， 如 图 2-2 所 示 。 Fa W World"> 
ovie title="Wayne’s World" 
半 结 构 化 数据 上 的 操作 常常 会 涉及 在 隐 Roy 
含 的 树 结构 中 跟踪 路 径 ， 从 一 个 标签 元 素 开 <Length>95</Length> 
始 跟踪 到 它 的 一 个 或 多 个 供 套 子 元 素 ， 然 后 Eco 和 


</Movie> 


再 沿 着 路 径 跟 踪 嵌 套 在 其 中 的 子 元 素 ， 如 此 </Movies> 





一 直 跟 踪 下 去 。 例 如 ， 从 外 层 的 <Movies> 元 5 - 
素 ( 见 图 2-2 的 整个 文档 ) 开始 ， 遍 历 幅 套 图 2-2 电影 数据 的 XML 文档 
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的 每 个 <Movie> 元 素 ， 即 包含 在 标签 <Movie> 和 </Movie> 之 间 的 部 分 。 对 于 每 个 <Movie>》 元 素 ， 
必须 跟踪 到 它 网 套 的 《Genre> 元 素 ， 才 能 知道 哪些 电影 是 属于 “喜剧 ”这 个 流派 。 

半 结 构 化 数据 上 的 约束 通常 涉及 与 一 个 标签 相关 联 的 数据 值 的 类 型 。 举 例 来 说 ， 与 标签 
<Length> 关 联 的 数据 值 必须 是 整 型 还 是 可 以 为 任意 字符 串 类 型 ? 还 有 一 类 约束 用 来 确定 哪些 
标签 必须 代 套 在 另 一 个 标签 下 。 比 如 ， 每 个 Movie> 元 素 是 否 一 定 需要 有 一 个 《Length> 元 素 
伐 套 在 其 中 ? 除了 图 2-2 列 出 的 标签 ， 是 否 还 有 其 他 的 标签 可 以 伐 入 《Movie> 元 素 ? 一 部 电影 
能 否 属于 两 个 流派 ? 有 关 这 些 约束 的 问题 将 留待 11.2 节 详细 讨论 。 


2.1.5 其 他 数据 模型 

还 有 很 多 其 他 的 数据 模型 和 DBMS 联 系 在 一 起 ， 现 在 的 趋势 是 将 面向 对 象 的 特征 加 入 到 
关系 模型 中 。 面 向 对 象 的 关系 有 两 种 效果 。 

1. 数据 可 以 具有 结构 ， 而 不 仅仅 是 基本 数据 元 素 ， 就 像 在 图 2-1 中 所 看 到 的 整 型 或 者 字符 串 。 

2. 关系 可 以 有 具有 相关 联 的 方法 。 

从 某 种 意义 上 来 说 ， 这 种 被 称 作对 象 关 系 模型 (object-relational model) 的 拓展 类 似 于 将 
C 中 的 结构 体 扩充 到 C++ 中 的 对 象 的 方法 。 对 象 关系 模型 将 在 10.3 节 介绍 。 

现在 也 有 纯 面向 对 象 的 数据 库 模 型 。 在 这 些 模型 中 ， 关 系 不 再 是 主要 的 数据 结构 概念 ， 
而 仅仅 变 成 很 多 结构 中 的 一 种 。 面 向 对 象 数 据 库 模 型 将 在 4.9 节 讨论 。 

在 早期 的 DBMS 中 ， 用 到 了 几 种 其 他 的 模型 ， 但 是 现在 已 经 不 再 使 用 。 层 次 模型 
(hierarchical model) 是 其 中 一 种 ， 它 类 似 于 半 结 构 化 数据 模型 ， 是 一 个 基于 树 结构 的 模型 。 
它 的 缺点 是 不 像 现 代数 据 模型 那样 ， 它 是 真正 在 物理 层次 上 进行 操作 ， 这 样 程序 开发 者 不 能 
在 一 个 较 高 的 层次 上 写 出 代码 。 另 一 种 模型 被 称 作 网 状 模型 (network model) ， 它 是 一 种 基于 
图 的 位 于 物理 层次 上 的 模型 。 事 实 上 ， 无 论 是 层次 模型 还 是 现在 的 半 结 构 化 模型 ， 都 允许 图 
结构 ， 并 不 严格 地 仅 局 限 使 用 树 结 构 。 但 是 ， 图 的 特征 被 直接 融入 网 状 模型 ， 而 不 是 像 其 他 
模型 那样 通过 树 。 


2.1.6 几 种 建 模 方法 的 比较 

即使 从 最 简单 的 例子 来 看 ， 半 结构 化 模型 比 关系 模型 显然 具有 更 大 的 灵活 性 。 在 接 下 来 
讨论 图 结构 是 怎样 嵌入 到 树 型 半 结 构 模 型 的 时 候 ， 这 种 差别 会 表现 得 更 明显 。 但 是 ， 关 系 模 
型 仍然 是 DBMS 采 用 最 多 的 一 种 数据 模型 ， 通 过 本 书 的 学 习 将 会 理解 这 是 为 什么 。 下 面 先 做 
简单 的 解释 。 

由 于 数据 库 中 数据 规模 通常 很 庞大 ， 高 效 地 访问 和 修改 其 中 的 数据 就 显得 非常 重要 。 同 
时 ， 数 据 库 中 的 数据 对 于 开发 者 来 说 还 必须 具有 易 用 性 的 特点 。 令 人 惊讶 的 是 ， 上 面 说 到 的 
高 效 性 和 易 用 性 在 关系 模型 里 面 都 能 够 得 到 有 效 的 实现 : 

1. 它 提供 一 种 简单 的 、 有 限 的 方法 来 对 数据 进行 建 模 ， 而 且 功 能 全 面 ， 因 此 现实 中 的 任 
何事 情 都 可 以 有 效 地 进行 模型 化 。 

2. 它 还 提供 了 一 套 有 限 的 但 是 又 很 有 效 的 操作 集 。 

这 些 限 制 性 的 条 件 正 是 关系 模型 的 特征 。 在 关系 模型 中 ， 可 以 使 用 高 级 的 程序 语言 ， 如 
SQL， 使 得 开发 者 能 够 在 较 高 的 层次 上 进行 开发 。 很 少 的 几 行 SQL 语句 就 可 以 完成 数 千 行 C 代 
码 才能 完成 的 工作 ， 或 者 是 数 百 行 网 状 模型 或 层次 模型 代码 才能 完成 的 数据 访问 工作 。 由 于 
在 关系 模型 中 使 用 较 强 的 有 限 的 集合 操作 ， 短 短 的 SQL 程序 可 以 被 优化 从 而 快速 运行 ， 或 者 
是 能 够 比 其 他 语言 代码 运行 得 更 快 。 
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2.2 关系 模型 基础 


关系 模型 为 人 们 提供 了 单一 一 种 描述 数据 的 方法 : 一 个 称 之 为 关系 (relation) 的 二 维 表 。 
将 图 2-1 重 新 复制 的 图 2-3 就 是 一 个 关系 的 例 i | year | length] 
子 ， 该 关系 名 是 Movies。 关 系 中 的 每 一 行 Gone With the Wind | 1939 | 231 
对 应 一 部 电影 实体 ， 每 一 列 对 应 电影 实体 的 
一 个 特征 。 本 节 将 通过 关系 Movies 介 绍 关 
系 模型 中 的 一 些 重 要 术语 。 图 2-3 关系 Movies 


2.2.1 属性 

关系 的 列 命名 为 属性 (attribute)， 图 2-3 中 的 属性 分 别 是 title、year、1length 和 genre。 
属性 出 现在 列 的 顶部 。 通 常 ， 属 性 用 来 描述 所 在 列 的 项 目的 语义 。 例 如 ，1length 属 性 列表 示 
了 以 分 钟 为 单位 的 每 部 电影 的 播放 时 间 。 


2.2.2 模式 

关系 名 和 其 属性 集合 的 组 合 称 为 这 个 关系 的 模式 〈schema) 。 描 述 一 个 关系 模式 时 ， 先 给 
出 一 个 关系 名 ， 其 后 是 用 圆 括 号 括 起 的 所 有 属性 。 这 样 ， 图 2-3 的 Movies 关 系 模式 如 下 所 示 : 

Movies(title, year, length, genre) 

关系 模式 中 的 属性 是 集合 ， 而 不 是 列表 。 可 是 ， 为 了 讲述 关系 ， 常 常 赋予 属性 一 个 “ 标 
准 ”顺序 。 当 需要 介绍 具有 一 组 属性 的 关系 模式 时 ， 如 上 面 例子 ， 常 以 这 个 标准 次 序 显 示 关 
系 或 关系 的 任意 一 行 。 

在 关系 模型 中 ， 数 据 库 是 由 一 个 或 多 个 关系 组 成 。 数 据 库 的 关系 模式 集合 叫做 关系 数据 
库 模 式 (relational database schema)， 或 者 就 称 为 数据 库 模 式 (database schema ) 。 


2.2.3 元 组 

关系 中 除 含 有 属性 名 所 在 行 以 外 的 其 他 行 称 作 元 组 〈tuple) 。 每 个 元 组 均 有 一 个 分 量 
(component) 对 应 于 关系 的 每 个 属性 。 例 如 ， 图 2-3 中 ， 第 一 个 元 组 具有 四 个 分 量 Gone With 
the Wind、1939、231 和 drama， 它 们 分 别 对 应 于 属性 title、year、1length 和 genre。 若 要 单 
独 表示 一 个 元 组 ， 而 不 是 把 它 作 为 关系 的 一 部 分 时 ， 常 用 逗号 分 开 各 个 分 量 ， 并 用 圆 括 号 括 
起 来 。 例 如 : 

(Gone With the Wind, 1939, 231, drama) 
是 图 2-3 的 第 一 个 元 组 。 从 这 个 形式 可 看 到 ， 当 单独 表示 元 组 时 ， 属 性 不 出 现 ， 因 此 要 给 出 元 
组 所 在 关系 的 标志 ， 这 个 标志 通常 就 是 属性 在 关系 模式 中 的 排列 次 序 。 





关系 和 属性 的 约定 
通常 的 约定 是 ， 关 系 名 以 大 写字 母 开头 ， 属 性 名 以 小 写字 母 开 头 。 但 是 ， 在 本 书 的 后 面 


某 些 章节 里 ， 要 对 关系 进行 一 些 抽象 的 讨论 ， 在 那 种 情况 下 ， 属 性 名 的 大 小 写 不 会 影响 问题 
的 讨论 ， 所 以 ， 会 用 单独 的 一 个 大 写字 母 来 表示 关系 和 属性 ， 比 如 ，R(4, B, C) 就 表示 一 个 
具有 三 个 属性 的 关系 。 





2.2.4 域 
关系 模型 要 求 元 组 的 每 个 分 量具 有 原子 性 。 也 就 是 说 ， 它 必须 属于 某 种 元 素 类 型 ， 如 
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integer 或 string， 而 不 能 是 记录 、 集 合 、 列 表 、 数 组 或 其 他 任何 可 以 被 分 解 成 更 小 分 量 的 组 合 
类 型 。 

进一步 假定 与 关系 的 每 个 属性 相关 联 的 是 一 个 域 (domain) ， 即 一 个 特殊 的 元 素 类 型 ， 关 
系 中 任 一 元 组 的 分 量 值 必须 属于 对 应 列 的 域 。 例 如 ， 图 2-3 关 系 Movies 中 四 个 分 量 对 应 的 域 分 
别 是 : string、integer、integer、string 。 

现在 可 以 将 每 个 属性 的 数据 类 型 (或 域 ) 包含 在 一 个 关系 模式 中 。 方 法 是 在 每 个 属性 后 
面 加 上 冒号 和 数据 类 型 ， 比 如 可 以 用 如 下 的 方式 来 描述 关系 Movies 的 模式 : 


Movies(title:string, year:integer, length:integer, genre:string) 
2.2.5 关系 的 等 价 描 述 
关系 是 元 组 的 集合 ， 而 不 是 元 组 的 列表 。 因 此 关系 中 元 组 出 现 的 顺序 不 是 实质 问题 。 例 


， 图 2-3 中 三 个 元 六 种 列 ， 
Et TO EN .ne 


均 表示 同一 个 关系 。 | | 


、 1977 | sciFi | Star Wars 124 
另外 ， 关系 的 属性 次 序 也 可 以 任意 排列 3 1992 | comedy | Wayne’s World 95 
1939 | drama | Gone With the Wind | 231 


关系 不 会 改变 。 但 重新 排序 关系 模式 时 ， 要 
图 2-4 关系 Movies 的 另 一 种 表示 










记 住 属 性 是 列 标题 。 因 此 ， 改 变 属 性 的 次 序 
时 , 也 要 改变 它们 所 在 列 的 次 序 。 与 此 同时 ， 
元 组 的 分 量 也 要 进行 相应 的 移动 ， 其 排列 方式 应 与 属性 的 排列 方式 一 致 。 

例如 ， 图 2-4 是 图 2-3 的 行 和 列 的 多 种 排列 方式 中 的 一 种 。 两 个 图 表示 的 是 同一 个 关系 。 更 
准确 地 说 ， 这 两 个 表 是 同一 个 关系 的 两 种 不 同 的 表现 形式 。 


2.2.6 关系 实例 

关系 Movies 不 是 静态 的 ， 而 是 会 随时 间 改 变 。 人 们 希望 变化 会 通过 关系 的 元 组 表现 出 来 。 
例如 : 插入 新 元 组 将 新 电影 加 入 到 数据 库 中 ， 对 已 存在 的 元 组 信息 进行 修改 或 更 正 ; 或 者 因 
为 某 种 原因 删除 元 组 将 某 部 电影 从 数据 库 中 去 掉 等 。 

关系 模式 并 不 会 经 常 改变 。 然 而 ， 在 有 些 情况 下 需要 对 属性 进行 添加 或 删除 。 虽 然 在 商 
业 数 据 库 系 统 中 ， 模 式 可 以 改变 ， 但 代价 很 昂贵 ， 因 为 这 可 能 会 导致 需要 重 写 上 百 万 个 元 组 
以 添加 或 删除 元 组 分 量 。 另 外 ， 若 要 添加 一 个 属性 ， 在 已 有 的 元 组 中 为 对 应 分 量 找到 正确 赋 
值 也 很 困难 ， 甚 至 是 不 可 能 的 。 

一 个 给 定 关 系 中 元 组 的 集合 叫做 关系 的 实例 (instance)。 例 如 ， 图 2-3 中 的 三 个 元 组 形成 了 
关系 Movies 的 一 个 实例 。 随 着 时 间 的 流逝 ，Movies 已 经 发 生 了 改变 ， 而 且 还 将 继续 改变 下 去 。 
例如 ， 在 1990 年 ，Movies 并 不 包括 Wayne’s Wor1d。 然 而 ， 通 常 的 数据 库 系 统 仅 仅 只 维护 关系 
的 一 个 版 本 ， 即 关系 的 “当前 ”元 组 集合 。 这 个 关系 实例 称 作 当前 实例 (current instance)  。 


2.2.7 关系 上 的 键 

在 关系 模型 中 ， 可 以 对 数据 库 模 式 的 关系 加 很 多 约束 ， 第 7 章 中 将 进行 具体 的 讨论 。 这 里 ， 
仅仅 讨论 一 种 非常 基本 的 约束 : 键 约束 。 键 由 关系 的 一 组 属性 集 组 成 ， 通 过 定义 键 可 以 保证 
关系 实例 上 任何 两 个 元 组 的 值 在 定义 键 的 属性 集 上 取 值 不 同 。 

例 2.1 关系 Movies 上 的 键 由 两 个 属性 组 成 : tit1e 和 year。 也 就 是 说 ， 没 有 两 部 电影 的 
制作 年 份 和 名 字 均 相同 。 这 里 要 注意 ， 单 独 的 tit1e 属 性 并 不 构成 一 个 键 ， 因 为 不 同年 份 制作 


日 ”维护 数据 历史 版 本 的 数据 库 ， 因 为 是 已 过 时 存在 的 ， 所 以 被 称 为 临时 数据 库 (temporal database) 。 
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的 电影 名 字 可 能 相同 。 例 如 ， 有 三 部 电影 名 字 均 为 King Kong， 而 它们 的 制作 年 份 各 不 相同 。 
同 理 ， 单 独 的 year 属 性 也 不 构成 一 个 键 ， 因 为 多 部 电影 可 以 在 同一 年 制作 。 口 

通常 在 形成 键 的 属性 或 属性 组 下 面 画 上 下 划 线 ， 用 来 表明 它 是 键 的 组 成 部 分 。 例 如 ， 关 
系 Movies 的 模式 可 以 写成 如 下 形式 : 

Movies(title, year, length, genre) 

需要 注意 的 是 ， 形 成 键 的 属性 集 的 值 对 于 关系 的 所 有 实例 都 具有 了 唯一 性 ， 而 不 是 只 针对 
一 个 实例 。 举 例 来 说 ， 如 果 仅 仅 看 图 2-3 的 数据 ， 可 能 认为 属性 单独 的 genre 可 以 构成 键 ， 因 
为 图 2-3 中 的 两 个 元 组 在 genre 分 量 上 的 值 均 不 同 。 但 是 可 以 很 容易 地 联想 到 ， 如 果 这 个 关系 
实例 含有 更 多 的 电影 ， 则 将 会 有 很 多 戏剧 、 喜 剧 ， 等 等 。 于 是 就 将 会 有 多 个 元 组 在 属性 genre 
分 量 上 值 相同 。 因 此 ， 属 性 genre 不 能 单独 构成 关系 Movies 上 的 键 。 

虽然 可 以 断定 属性 tit1e 和 year 可 以 构成 Movies 中 的 键 ， 然 而 现实 中 的 数据 库 经 常 使 用 虚 
拟 键 ， 这 样 可 以 安全 地 对 属性 值 做 出 所 需要 的 假定 。 例 如 ， 通 常 公司 会 为 每 个 雇员 指派 一 个 
员工 ID, 该 ID 是 具有 了 唯一 性 的 数字 。ID 的 目的 之 一 是 保证 公司 数据 库 里 的 每 个 雇员 都 可 以 互 
相 区 别 ， 即 使 多 个 雇员 的 姓名 相同 ， 但 是 每 个 雇员 的 ID 号 不 相同 。 这 样 ， 和 雇员 的 ID 属性 就 可 
以 作为 公司 雇员 关系 的 键 。 

在 美国 的 公司 里 ， 通 常 每 个 雇员 都 会 有 一 个 社会 安全 号 码 。 如 果 数 据 库 中 有 一 个 社会 安 
全 号 码 属性 ， 那 么 这 个 属性 就 可 以 作为 雇员 关系 的 键 。 注 意 ， 关 系 中 可 以 有 多 个 键 的 选择 ， 


对 于 雇员 关系 来 说 ， 雇 员 ID 和 社会 安全 号 码 都 可 以 作 
为 键 。 

创建 一 个 属性 用 来 作为 键 的 思想 在 现实 中 应 用 得 
很 广泛 。 除 了 员工 ID 之 外 ， 大 学 中 用 学 生 ID 来 区 分 每 
个 学 生 ， 分 别 用 驾驶 执照 号 和 机 动车 注册 号 来 区 分 每 
个 驾驶 员 和 每 辆 机 动车 。 毫 无 疑问 ， 你 可 以 找到 更 多 
这 样 的 例子 。 


2.2.8 数据 库 模 式 示例 

下 面 将 以 一 个 完整 的 数据 库 模 式 的 例子 来 结束 本 
节 的 内 容 。 数 据 库 的 主题 是 电影 ， 它 是 建立 在 本 书 一 
直 讨 论 的 Movies 关 系 之 上 上。 数据库 模式 如 图 2-5 所 示 。 
为 了 理解 该 数据 库 模式 的 含义 ， 下 面 讨论 该 模式 所 列 
出 的 几 个 关系 。 

电影 (Movies ) 

该 关系 是 之 前 讨论 的 示例 关系 的 一 个 扩展 。 它 的 
键 由 tit1e 和 year 两 个 属性 组 成 。 这 个 关系 里 面 新 增 了 
两 个 属性 : studioName 和 producerC#。 前 者 说 明 电 影 
是 由 哪个 电影 公司 制作 ， 而 后 者 是 一 个 类 型 为 整 型 的 
值 ， 它 描述 了 电影 制作 者 的 信息 ， 该 信息 将 会 在 下 面 
的 MovieExec 关 系 中 更 详细 地 得 到 表述 。 

电影 明星 (MovieStar ) 

这 是 关于 演员 的 一 个 关系 。 键 为 电影 明星 的 名 字 
name。 虽 然 通常 来 讲 ， 名 字 不 足以 区 别 一 个 人 ， 但 是 


Movies( 
title:string, 
year:integer, 
length:integer, 
genre:string, 
studioName:string, 
producerC#:integer 

| 

MovieStar( 
name:string, 
address:string, 
gender :char, 
birthdate:date 

) 

StarsIn( 
movieTitle:string, 
movieYear: integer， 
starName: string 


MovieExec( 
name:string, 
address:string, 
Cert#:integer, 
netWorth:integer 


) 

Studio( 
name:string, 
address:string, 
presC#:integer 





) 


图 2-5 关于 电影 的 示例 数据 库 模式 
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作为 电影 演员 来 说 ， 任 何 两 个 演员 都 不 会 用 同一 个 名 字 ， 所 以 演员 名 适 于 作为 键 。 更 方便 的 
方法 是 增加 一 个 额外 的 属性 作为 键 ， 就 好 像 前 面 提 到 的 社会 安全 号 码 。 这 样 就 可 以 为 每 个 演 
员 指 派 一 个 唯一 的 标号 。 同 样 的 处 理 方法 还 将 应 用 到 电影 制 片 上 。 另 一 个 有 趣 之 处 是 在 关系 
Moviestar 中 出 现 了 两 种 新 的 数据 类 型 。 属 性 性 别 是 一 个 单独 的 字符 ，F 或 者 M。 而 属性 生日 
的 类 型 则 是 “日 期 ”类 型 ( 它 是 一 个 特殊 的 字符 串 形 式 )。 

演出 (StarsIn) 

这 个 关系 将 电影 与 电影 中 的 演员 联系 在 一 起 。 要 注意 的 是 ， 电 影 是 以 Movies 的 健 属 性 
tit1e 和 year 表 示 的 ( 美 系 中 分 别 用 不 同 的 属性 movieTitle 和 movieYear 来 表示 )， 演员 是 以 
MovieStar 的 键 演员 名 字 出 现 (关系 中 用 属性 starName 表 示 )。 最 后 由 这 三 个 属性 共同 组 成 该 
关系 的 键 。 这 是 相当 合理 的 ， 关 系 StarsIn 的 两 个 不 同 的 元 组 可 能 在 上 述 三 个 属性 中 的 任 两 个 
上 具有 相同 值 。 例 如 ， 一 个 演员 可 能 在 一 年 内 同时 出 现在 两 部 电影 里 。 于 是 ， 就 存在 两 个 不 
同 的 元 组 在 movieYear 和 starName 上 相同 ， 而 在 movieTit1e 上 不 同 。 

电影 制 片 (MovieExec) 

该 关系 提供 电影 制 片 者 的 信息 (他们 的 姓名 、 住 址 及 市 场 净 资 产 )。 该 关系 的 键 ， 则 是 为 
每 个 制 片 设计 了 一 个 “证 书号 ”属性 ， 包 括 电 影 制作 者 姓名 (在 关系 Movies 中 出 现 )、 电 影 公 
司 主席 (在 关系 Studio 中 出 现 )。 这 些 属 性 都 是 整数 类 型 ， 不 同 的 属性 指定 给 不 同 的 制 片 人 。 

电影 公司 (Studio) 

电影 公司 的 有 关 信 息 在 关系 Studio 中 描述 。 这 里 认为 没有 任何 两 个 电影 公司 拥有 相同 的 名 
字 ， 所 以 属性 name 可 以 作为 关系 的 键 。 其 他 的 属性 还 包括 电影 公司 的 地 址 以 及 电影 公司 主席 的 
证 书号 。 假 设 电影 公司 主席 也 一 定 是 电影 的 制 片 者 ， 所 以 他 一 定 也 会 在 关系 MovieExec 中 出 现 。 


2.2.9 习题 
习题 2.2.1 图 2-6 是 可 能 构成 部 分 银行 数据 库 的 两 个 关系 实例 。 请 指出 : 
a) 每 个 关系 的 属性 。 
b) 每 个 关系 的 元 组 。 
c) 每 个 关系 中 一 个 元 组 的 分 量 。 
d) 每 个 关系 的 关系 模式 。 
e) 数据 库 模式 。 
f) 每 个 属性 的 合适 的 域 。 
g) 每 个 关系 的 另 一 种 等 价 描述 。 
习题 2.2.2 在 2.2.7 节 中 提 到 创建 属性 以 形成 关系 的 键 ， 并 且 给 出 了 一 些 例 子 ， 请 再 列举 出 一 些 实例 。 
! 习题 2.2.3 一 共有 多 少 种 方式 来 描述 下 面 的 关系 实例 (考虑 元 组 和 属性 的 排列 顺序 ) ? 
a) 与 图 2-6 中 的 关系 Accounts 一 样 具 有 三 个 属性 和 三 个 元 组 的 关系 。 
b) 具有 四 个 属性 和 五 个 元 组 的 关系 。 
c) 具有 n 个 属性 和 m 个 元 组 的 关系 。 


12345 | savings | 12000 
23456 | checking | 1000 
34567 | savings | 25 













关系 Accounts 


[firstName | lastName | idNo | account | 
Robbie Banks 901-222 | 12345 
Lena Hand 805-333 | 12345 
Lena Hand 805-333 | 23456 










关系 Customers 


图 2-6 银行 数据 库 的 两 个 关系 
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2.3 在 SQL 中 定义 关系 模式 


最 普遍 的 用 于 描述 和 操纵 关系 数据 库 的 语言 是 SQL( 读 作 “sequel”)。 最 新 的 SQL 标准 称 
为 SQL-99。 现 今 的 大 多 数 商 用 数据 库 管 理 系统 都 只 是 实现 了 标准 的 一 部 分 ， 而 不 是 全 部 实现 。 
SQL 有 两 方面 的 内 容 : 

1. 用 于 定义 数据 库 模 式 的 数据 定义 (Data-Definition) 子 语言 。 

2. 用 于 查询 和 更 新 数据 库 的 数据 操纵 (Data-Manipulation) 子 语 言 。 

上 面 这 两 种 子 语言 的 区 别 在 大 多 数 的 程序 语言 中 都 可 以 找到 。 例 如 ， 在 C 或 Java 语 言 里 ， 
既 有 定义 数据 的 部 分 ， 也 有 代码 执行 的 部 分 ， 它 们 分 别 对 应 于 SQL 中 的 数据 定义 子 语言 和 数 
据 操 纵 子 语言 。 

本 节 初 步 讨 论 SQL 的 数据 定义 部 分 ， 第 7 章 将 会 有 更 深入 的 讨论 ， 特 别 是 对 于 数据 约束 的 
问题 。 而 有 关 数 据 操 纵 的 部 分 留待 第 6 章 讨论 。 


2.3.1 SQL 中 的 关系 

SQL 区 分 三 类 关系 : 

1. 存储 的 关系 ， 称 为 表 (table)。 这 是 通常 要 处 理 的 一 种 关系 ， 它 在 数据 库 中 存储 ， 用 户 
能 够 对 其 元 组 进行 查询 和 更 新 。 

2. 视图 (view)， 通 过 计算 来 定义 的 关系 。 这 种 关系 并 不 在 数据 库 中 存储 ， 它 只 是 在 需要 
的 时 候 被 完整 或 者 部 分 地 构造 。8.1 节 将 主要 讨论 视图 。 

3. 临时 表 ， 它 是 在 执行 数据 查询 和 更 新 时 由 SQL 处 理 程序 临时 构造 。 这 些 临 时 表 会 在 处 
理 结 束 后 被 删除 而 不 会 存储 在 数据 库 里 。 

本 市 将 学 习 怎 样 定义 表 。 视 图 不 会 在 这 里 介绍 ， 而 临时 表 永 远 都 不 需要 显 式 地 定义 。 
SQL 中 的 CREATE TABLE 语 句 用 来 定义 一 个 被 存储 的 关系 的 模式 。 它 给 出 表 的 名 字 、 属 性 及 其 
数据 类 型 。 可 以 为 关系 定义 一 个 甚至 多 个 键 。 事 实 上 ，CREATE TABLE 语 名 还 有 很 多 其 他 的 特 
征 ， 如 包含 各 种 形式 的 约束 声明 和 索引 (一 种 用 于 加 速 表 上 操作 的 数据 结构 ) 的 定义 等 ， 这 
些 都 将 在 后 续 章 节 讲 述 。 


2.3.2 数据 类 型 

先 介绍 SQL 系统 支持 的 基本 数据 类 型 。 关 系 中 所 有 的 属性 都 必须 有 一 个 数据 类 型 。 

1. 可 变 长 度 或 固定 长 度 字 符 串 。 类 型 CHRAR(n ) 表 示 最 大 为 n 个 字符 的 固定 长 度 字符 串 。 
VARCHAR(n) 也 表示 最 多 可 有 n 个 字符 的 字符 串 。 它 们 的 区 别 与 具体 实现 有 关 。 一 般 来 说 ， 
CHAR 类 型 会 以 一 些 短 的 字符 串 来 填充 后 面 未 满 的 空间 来 构成 x 个 字符 ， 而 VARCHAR 会 使 用 一 
个 结束 符 或 字符 长 度 值 来 标志 字符 串 的 结束 ， 后 面 未 满 的 空间 不 会 做 填充 。SQL 人 允许 合理 地 
在 不 同 字符 串 类 型 之 间作 类 型 转换 。 通 常 ， 当 某 个 字段 值 的 字符 个 数 比 定义 的 类 型 少时 在 后 
面 补 上 空格 人 字符。 例如， 字符 串 “foo”9 成 为 某 个 类 型 为 CHAR(5) 的 字段 值 的 时 候 ， 就 认为 
它 是 值 为 “foo” 的 字符 串 (后 面 跟 上 两 个 空格 )。 

2. 固定 或 可 变 长 度 的 位 串 。 位 串 和 字符 串 类 似 , 但 是 它们 的 值 是 由 比特 而 不 是 字符 组 成 。 
类 型 BIT(n) 表 示 长 为 n 的 位 串 。BIT _VARYIN6G(n ) 表 示 最 大 长 度 为 "的 位 串 。 

3. BOOLEAN 表 示 具 有 逻辑 类 型 的 值 。 该 类 属性 的 可 能 值 是 TURE、FALSE 和 和 UNKNOWN 
(这 一 点 可 能 会 令 George Boole 吃 惊 )。 


日 注意 ，SQL 中 字符 串 是 使 用 单 引 号 ， 不 像 很 多 其 他 程序 设计 语言 中 那样 使 用 双 引 号 。 
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SQL 中 的 日 期 和 时 间 
一 般 来 说 ，SQL 中 的 日 期 和 时 间 类 型 随 着 具体 实现 的 不 同 而 不 同 ， 但 下 面 讲述 的 是 SQL 
的 标准 实现 形式 。 日 期 值 由 关键 字 DATE 后 面 接 一 个 用 单 引 号 括 起 来 的 特定 形式 的 字符 串 来 
定义 。 比 如 ，DATE “1948-05-14” 就 是 一 个 符合 要 求 的 形式 。 这 里 开始 的 四 个 数字 代表 年 
份 ， 接 下 来 是 一 个 分 隔 符 ， 其 后 的 两 个 数字 组 成 月 份 ， 然 后 又 是 一 个 分 隔 符 ， 而 最 后 的 两 个 
数字 用 来 指明 是 哪 一 天 。 要 注意 的 是 ， 如 果 月 份 或 者 用 来 指明 是 哪 一 天 的 数字 是 单个 数字 


( 即 <10)， 则 要 在 前 面 利 充 一 个 0。 

类 似 地 ， 时 间 值 由 关键 字 TIME 和 一 个 特定 形式 的 字符 串 组 成 。 在 这 个 字符 串 中 ， 由 两 位 
数字 表示 小 时 (24 小 时 制 )， 接 下 来 是 冒号 ， 然 后 是 两 位 数字 描述 分 钟 ， 接 下 来 再 是 冒号 ， 最 
后 两 位 数字 表示 秒 数 。 如 果 要 进一步 提高 精度 ， 可 以 在 秒 数 里 引入 十 进 制 小 数 点 ， 后 面 可 保 
留任 意 位 数 。 例 如 ，TIME “15:00:02.5” 可 以 用 来 描述 所 有 学 生 将 在 下 午 3 点 0 分 2.5 秒 结束 
的 课程 后 离开 的 时 间 。 


4. 类 型 INT 和 INTEGER (两 者 为 同义词 ) 表示 典型 的 整数 值 。 类 型 SHORTINT 也 表示 整数 ， 
但 是 表示 的 位 数 可 能 小 些 ， 具 体 取决 于 实现 。( 类 似 C 语 言 中 的 int 和 short int)。 

5. 浮 点 值 能 通过 不 同 的 方法 表示 。 类 型 FLOAT 和 REAL (两 者 为 同义词 ) 表示 典型 的 浮 点 数 
值 。 需 要 高 精度 的 浮 点 类 型 可 以 使 用 DOUBLE PRECISION。 这 些 类 型 的 区 别 也 和 C 语 言 中 类 似 。 
SQL 还 提供 指定 小 数 点 后 位 数 的 浮 点 类 型 。 例 如 DECIMAL(n,d) 人 允许 可 以 有 n 位 有 效 数字 的 十 进 
制 数 ， 小 数 点 是 在 右 数 第 d 位 的 位 置 。 例 如 0123 .45 就 是 符合 类 型 DECIMAL(6 ,2) 定 义 的 数值 。 
NUMERIC 几 乎 是 DECIMAL 的 同义词 ， 尽 管 它们 存在 某 些 依赖 于 实现 的 小 差别 。 

6. 日 期 和 时 间 分 别 通 过 DATA 和 TIME 数 据 类 型 来 表示 (见方 框 里 的 “SQL 中 的 日 期 和 时 间 ”) 。 
这 些 值 本 质 上 是 字符 串 的 一 种 特殊 形式 。 实 际 上 可 以 把 时 间 和 日 期 强制 转换 成 字符 串 类 型 。 
反之 也 可 以 把 某 些 特 定格 式 字 符 串 转换 为 日 期 和 时 间 。 


2.3.3 简单 的 表 定 义 
最 简单 的 关系 模式 的 定义 形式 是 由 保留 字 CREATE TABLE 后 面 跟着 关系 名 以 及 括 起 来 的 由 
属性 名 和 类 型 组 成 的 列表 。 





CREATE TABLE Movies ( 


例 2.2 ”图 2-5 给 出 的 关系 Movies 可 以 被 重新 定义 为 图 title CHAR(100) , 
2-7 的 形式 。 电 影 的 名 字 被 定义 为 (最 大 ) 长 度 为 100 个 字 ro 
符 的 字符 串 类 型 。 年 份 和 电影 长 度 属性 都 是 整 型 数据 ， 流 genre CHAR(10) ， 
派 属 性 为 10 个 字符 的 字符 串 类 型 。 将 电影 名 定义 为 100 个 studioName CHAR(30) ， 
字符 似乎 有 点 随意 ， 这 是 不 想 将 长 度 限制 得 过 于 紧凑 ， 在 人 





遇 到 长 的 电影 名 时 致使 其 被 截断 。 同 时， 假设 10 个 字符 的 
长 度 足够 存储 电影 的 流派 信息 ， 这 也 是 一 个 任意 选择 。 如 
果 有 一 个 电影 流派 具有 一 个 很 长 的 名 字 ， 则 10 个 字符 可 能 会 不 够 。 同 前 面 一 样 ， 假 设 用 30 个 
字符 来 描述 电影 公司 的 名 字 。 最 后 ， 证 书号 是 另外 一 个 整 型 分 量 。 口 

例 2.3 ”图 2-8 是 图 2-5 中 关系 MovieStar 的 SQL 定义 。 该 例 引 和 人 了 一 些 新 的 数据 类 型 。 
MovieStar 为 表 的 名 字 ， 它 包含 四 个 属性 。 头 两 个 属性 name 和 address 都 定义 为 字符 串 类 型 。 
但 对 于 name 属 性 ， 使 用 了 长 度 为 30 个 字符 的 固定 长 度 字 符 串 。 这 样 ， 长 度 小 于 30 个 字符 的 名 
字 后 面 将 填 上 空格 ， 长 度 大 于 30 个 字符 的 字符 串 则 被 截断 成 为 30 个 字符 长 的 字符 串 。 与 name 


图 2-7 表 Movies 在 SQL 中 的 定义 
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属性 不 同 ，address 属 性 定义 为 最 大 长 度 为 255 个 字符 的 可 变 长 度 字符 串 ” 。 这 种 做 法 不 一 定 
是 最 好 的 选择 ， 这 样 做 的 目的 是 为 了 说 明 两 种 不 同 的 字符 CREATE TABLE MovieStar ( 





串 类 型 。 name CHAR(30) ， 
了 ey address VARCHAR(255), 
属性 gender 只 用 单个 字母 M 或 F 描 述 。 这 样 ， 用 单个 字 piace 
符 足 以 描述 此 属性 类 型 。 最 后 ，birthdate 属 性 自然 要 使 birthdate DATE 
用 DATE 类 型 。 口 
2.3.4 修改 关系 模式 图 2-8 定义 MovieStar 的 关系 模式 


前 面 已 经 讨论 了 如 何 定 义 一 个 表 。 现 在 假如 要 改变 它 的 模式 ， 特 别 是 在 这 个 表 已 经 使 用 
了 很 长 的 一 段 时 间 ， 里 面包 含 着 大 量 的 元 组 实例 的 情况 下 该 怎么 办 呢 ? 模式 修改 可 以 删除 整 
个 表 ， 包 括 它 所 有 的 实例 元 组 ， 或 者 是 在 模式 中 插入 或 删除 一 些 属 性 。 

删除 某 个 关系 尺 ， 可 以 使 用 如 下 的 SQL 语句 ， 

DROP TABLE R; 

此 后 关系 R 不 再 是 数据 库 模 式 中 的 一 部 分 ， 关 系 中 的 元 组 也 再 无 法 访问 。 

对 于 一 个 长 期 使 用 的 数据 库 ， 一 般 很 少 删除 其 中 的 某 个 关系 ， 通 常 要 做 的 可 能 是 对 某 些 
已 存在 的 关系 模式 进行 修改 。 修 改 操 作 的 语句 以 关键 字 ALTER TABLE 开 头 其 后 加 上 关系 的 名 字 。 
后 面 还 可 以 跟 几 种 选项 ， 最 重要 的 两 种 是 : 

1. ADD 后 面 加 上 属性 名 字 和 数据 类 型 。 

2.DROP 后 面 加 上 属性 名 字 。 

例 2.4 ”修改 关系 MovieStar， 给 它 增加 属性 phone， 语 句 为 : 

ALTER TABLE MovieStar ADD Phone CHAR(16) ; 

该 语句 的 结果 是 MovieStar 现 在 具有 5 个 属性 :前 4 个 在 图 2-8 中 给 出 。 第 5 个 是 属性 phone 
具有 国定 长 度 为 16 的 字符 串 。 在 实际 关系 中 ， 元 组 都 具有 phone 字 段 。 但 是 该 字段 中 没有 电话 
号 码 值 。 所 以 ， 该 字段 的 值 将 设置 为 空 值 (null value) 一 一 NULL。 在 2.3.5 节 中 ， 将 介绍 使 用 
另 一 种 “默认 ” 值 代 替 NULL 表 示 未 知 的 值 。 

另 一 个 ALTER TABLE 语句 的 例子 是 : 

ALTER TABLE MovieStar DROP birthdate; 

该 语句 删除 关系 中 的 birthdate 属 性 。 结 果 是 ，MovieStar 关 系 中 将 不 再 有 该 属性 ， 当 前 
MovieStar 实 例 的 元 组 中 的 birthdate 分 量 被 删除 。 问 


2.3.5 默认 值 
当 创 建 或 修改 元 组 时 ， 并 非 总 是 给 它 的 每 个 字段 指定 值 。 例 如 ， 例 2.4 中 给 关系 增加 一 列 
时 ， 关 系 中 已 存在 的 元 组 对 应 此 列 没有 一 个 具体 的 值 ， 通 常 建 议 使 用 NULL 值 来 替代 该 位 置 上 
的 “真实 ” 值 。 但 是 有 时 可 能 更 愿意 使 用 另外 的 默认 值 (default value) 来 替代 NULL 值 。 
通常 ， 在 任何 声明 属性 和 其 数据 类 型 的 地 方 ， 都 可 以 加 上 保留 字 DEFAULT 和 一 个 合适 的 值 。 
该 值 一 般 要 么 是 NULL， 要 么 是 常量 。 系 统 还 提供 其 他 几 种 值 ， 如 当前 时 间 ， 也 可 以 是 一 种 选择 。 
例 2.5 重新 考虑 例 2.3。 和 希望 使 用 字符 “? ”作为 属性 gender 未 知 时 的 默认 值 ， 使 用 一 个 


”数字 255 并 不 是 典型 的 地 址 类 型 专门 使 用 的 数字 。 由 于 单个 字 节 能 存储 0 一 255 之 间 的 整数 ， 所 以 可 以 使 用 
一 个 字 节 表示 最 大 长 度 为 255 的 可 变 长 度 的 字符 串 的 字符 个 数 ， 再 加 上 表示 字符 串 本 身 的 字符 来 一 起 表示 变 
长 字符 串 。 商 业 数 据 库 系统 通常 都 支持 更 大 长 度 的 可 变 长 字符 串 。 
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可 能 最 早 的 日 期 DATE “0000-00-00” 作 为 某 个 未 知 birthdate 的 默认 值 。 这 时 需要 将 图 2-8 中 
属性 gender 和 birthdate 定 义 作 如 下 的 丈 换 : 

gender CHAR(1) DEFAULT 2??， 

birthdate DATE DEFAULT DATE ;0000-00-00， 

至 于 其 他 的 例子 ， 如 例 2.4 中 ， 当 新 增 属 性 Phone 时， 可 以 将 它 的 默认 值 声明 为 
“un1isted" 。 这 种 情况 下 ， 语 句 

ALTER TABLE MovieStar ADD phone CHAR(16) DEFAULT ’unlisted’; 
就 成 为 合适 的 ALTER TABLE 语句 。 口 


2.3.6 键 的 声明 

CREATE _ TABLE 语句 在 定义 一 个 存储 的 关系 时 ， 有 两 种 方法 将 某 个 属性 或 某 组 属性 声明 为 
一 个 键 。 
1. 当 属性 被 列 和 人 关系 模式 时 ， 声 明 其 是 键 。 

2. 在 模式 声明 的 项 目 表 中 增加 表 项 (目前 仅 为 属性 项 ) ， 声 明 一 个 或 者 一 组 属性 是 键 。 

如 果 键 由 多 个 属性 组 成 ， 则 只 能 用 方法 (2) 来 声明 。 如 果 键 仅 由 单个 属性 组 成 ， 则 可 以 使 
用 上 面 两 种 方法 中 的 任 一 种 。 

有 两 种 指明 键 的 声明 方法 : 

a) PRIMARY KEY。 

b) UNIQUE 。 

对 于 关系 R， 使 用 PRIMARY KEY 或 者 UNIQUE 声 明 某 组 属性 3 为 键 的 效果 是 : 

。R 的 任意 两 个 元 组 不 能 在 S$ 的 所 有 属性 上 具有 完全 相同 的 值 ， 除 非 其 中 有 一 个 是 NULL 值 。 

任何 违反 该 规则 的 插入 或 更 新 操作 ， 都 会 使 DBMS 拒 绝 该 操作 并 引起 异常 。 

除 此 之 外 ， 如 果 PRIMARY KEY 被 使 用 ， 则 Ss 中 的 属性 不 能 有 NULL 值 。 同 样 ， 违 反 该 规则 的 
操作 将 被 DBMS 拒 绝 。 但 是 ， 如 果 5 被 声明 为 UNIQUE， 则 NULL 值 是 允许 的 。 这 是 两 者 的 区 别 之 
一 。 当 然 ， 如 果 愿 意 ，DBMS 还 可 以 在 其 他 方面 区 分 这 两 种 关键 字 。 

例 2.6 ”现在 考虑 关系 MovieStar 的 模式 。 既 然 认 定 没 有 任何 两 个 演员 会 使 用 相同 的 名 字 ， 
所 以 ， 将 属性 name 单 独 作为 该 关系 的 键 。 于 是 在 属性 name 声 明 中 加 上 键 声 明 。 图 2-9 是 图 2-8 
的 另 一 个 版 本 ， 它 反应 了 这 种 变化 。 自 然 ， 声 明 中 也 可 以 用 UNIQUE 替 代 PRIMARY KEY， 只 是 
替换 之 后 ， 两 个 或 多 个 元 组 就 可 以 使 用 NULL 作 为 分 量 name 的 值 ， 但 是 这 是 特例 ， 除 此 之 外 属 
性 name 的 值 在 关系 中 必须 唯一 。 
另外 ， 也 可 以 使 用 独立 的 主键 定义 声明 。 结 果 模 式 声 明 如 图 2-10 所 示 ， 同 样 ， 可 以 用 UNIQUE 
替换 PRIMARY KEY。 口 


CREATE TABLE MovieStar ( 
name CHAR(30) ， 
address VARCHAR(255) ， 
gender CHAR(1), 


CREATE TABLE MovieStar ( 
name CHAR(30) PRIMARY KEY, 
address VARCHAR(255), 

birthdate DATE, 

PRIMARY KEY (name) 


gender CHAR(1), 
birthdate DATE 


. 
3 





图 2-9 ”name 主键 声明 图 2-10 独立 的 主键 声明 
例 2.7 ”在 例 2.6 中 ， 图 2-9 和 图 2-10 的 声明 形式 都 可 以 接受 ， 因 为 键 是 由 单个 属性 组 成 。 
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然而 ， 当 键 由 多 个 属性 组 成 时 ， 必 须 使 用 图 2-10 的 声明 形式 。 比 如 在 关系 Movie 中 ， 键 由 一 对 
属性 tit1e 和 year 组 成 ， 于 是 有 图 2-11 的 声明 形式 。 同 CREATE TABLE Movies ( 


样 ， 这 里 也 可 以 选择 用 UNIQUE 替 代 PRIMARY KEY。 ” 口 title CHAR(100) ， 
year INT, 
2.3.7 习题 length INT, 
a CHAR(10), 
习题 2.3.1 下 面 的 练习 基于 一 个 正在 运行 的 关系 数据 库 。 访 eet te 


数据 库 模式 由 四 个 关系 组 成 ， 它 们 的 模式 如 下 : producerC# INT, 
PRIMARY KEY (title, year) 


Product (maker, model, type) 
PC(model, speed, ram, hd, price) 
Laptop(model, speed, ram, hd, screen, price) 图 2-11 声明 tit1e 和 year 为 关系 Movies 
Printer(model, color, type, price) 的 主键 
关系 Product 给 出 了 各 种 产品 的 制造 商 、 型 号 和 产品 类 
型 (PC、laptop 或 者 printer) 。 为 了 简单 起 见 ， 假 设 型 号 对 于 所 有 的 制造 商 和 产品 都 是 唯一 的 ， 尽 管 
这 个 假设 在 实际 中 不 成 立 ， 实 际 的 数据 库 中 型 号 将 包含 一 个 代表 制造 商 的 代码 。 关 系 PC 给 出 了 每 种 
PC 的 速度 〈 处 理 器 ， 以 千 兆 赫兹 为 单位 )、RAM 的 大 小 〈 以 MB 为 单位 ) 、 硬 盘 容 量 (以 GB 为 单位 ) 
以 及 价格 。 关 系 Laptop 与 关系 PC 类 似 ， 它 在 PC 的 基础 上 增加 了 属性 screen， 即 屏幕 的 尺寸 (以 英 
十 为 单位 ) 。 关 系 Printer 记 录 了 每 种 类 型 的 打印 机 的 型 号 ， 是 否 为 彩色 打印 机 (如 果 是 彩色 ， 则 为 
true) 、 处 理 类 型 (激光 或 者 喷 墨 打印 ) 以 及 价格 。 
请 写 出 下 面 的 定义 ， 
a) 合适 的 Product 关 系 模式 。 
b) 合适 的 PC 关系 模式 。 
c) 合适 的 Laptop 关 系 模式 。 
d) 合适 的 Printer 关 系 模式 。 
e) 从 (d) 的 关系 模式 中 删除 属性 co1or。 
f) 为 (c) 得 到 的 模式 增加 一 个 属性 od (光驱 类 型 ， 比 如 CD、DVD)。 如 果 某 个 笔记 本 电脑 (laptop) 
没有 光驱 ， 则 该 属性 的 默认 值 为 “none” 。 

习题 2.3.2 本 习题 引入 了 另外 的 一 个 运行 着 的 实例 ， 涉 及 二 战 中 的 大 型 舰 船 。 它 由 以 下 几 个 关系 组 成 ; 
Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 


Battles(name, date) 
Outcomes(ship, battle, result) 


相同 设计 的 舰 船 组 成 一 个 “类 ”， 类 别 的 名 称 通常 就 是 这 个 类 的 第 一 稻 船 的 名 字 。 关 系 C1asses 记 录 
' 了 “类 ”的 名 字 、 型 号 (bb 代表 战列舰 ，bc 代 表 近 洋 舰 )、 生 产 国 家 、 主 炮 的 数目 、 炮 尺寸 (口径 ， 
单位 是 英寸 ) 和 排水 量 (重量 ,单位 是 吨 )。 关 系 Ships 记 录 了 般 船 的 名 字 、 舰 船 类 属 名 字 和 开始 服 
役 的 日 期 。 关 系 Battles 给 出 了 这 些 舰 船 参 加 的 战役 的 上 时间。 关系 0utcomes 给 出 了 各 艘 舰 船 在 各 场 
战役 中 的 结果 (是 沉没 还 是 受伤 ， 或 者 完好 )。 | 

写 出 下 面 的 定义 : 

a) 合适 的 C1asses 关 系 模式 。 

b) 合适 的 Ships 关 系 模式 。 

c) 合适 的 Batt1es 关 系 模式 。 

d) 合适 的 0utcomes 关 系 模式 。 

e) 从 (a) 的 关系 模式 中 删除 属性 bore。 

f) 为 (b) 得 到 的 模式 增加 一 个 属性 yard， 它 给 出 制造 该 船 的 船厂 的 名 字 。 
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2.4 代数 查询 语言 


本 节 将 介绍 关系 模型 关于 数据 操作 方面 的 内 容 。 数 据 模型 不 仅仅 涉及 用 来 描述 数据 的 数 
据 结构 ， 它 同时 也 需要 一 种 操作 这 些 数 据 的 方法 ， 使 用 户 可 以 对 数据 进行 查询 和 修改 。 为 了 
开始 学 习 关系 上 的 数据 操作 ， 首 先 要 引入 一 种 专门 的 代数 一 一 关系 代数 ， 它 包含 一 些 简单 但 
是 功能 强大 的 方法 ， 可 以 从 给 定 关 系 构造 出 新 的 关系 。 当 给 定 关 系 是 真正 被 系统 存储 的 数据 
( 表 ) 时 ， 构 造 出 的 新 关系 也 可 以 是 对 这 些 数据 进行 查询 而 产生 的 结果 。 


2.4.1 为 什么 需要 一 种 专门 的 查询 语言 

在 介绍 关系 代数 的 操作 之 前 ， 可 能 有 人 会 问 为 什么 或 者 是 否 需要 引入 一 种 新 的 数据 库 开 
发 语言 。 难 道 现 有 的 一 些 通 用 编程 语言 (比如 C 或 Java) 不 足以 解决 关于 关系 的 所 有 问题 吗 ? 
例如 ， 可 以 用 一 个 结构 体 〈 在 C 中 ) 或 者 一 个 对 象 《在 Java 中 ) 来 描述 关系 的 元 组 ， 而 用 它们 
的 数组 来 描述 整个 关系 。 

但 是 实际 上 ， 关 系 代数 之 所 以 是 有 用 的 正 是 因为 它 不 如 C 或 Java 强 大 。 这 个 答案 确实 有 氮 
令 人 吃惊 。 这 意味 着 ， 可 以 用 C 或 Java 解 决 的 问题 用 关系 代数 不 一 定 能 够 解决 。 比 如 ， 判 断 一 
个 关系 中 元 组 的 个 数 是 奇数 还 是 偶数 这 样 的 问题 就 不 能 用 代数 直接 表达 。 但 是 ， 通 过 对 查询 
语言 做 出 某 些 限制 ， 可 以 获得 两 个 极为 有 益 的 回报 一 一 可 以 非常 方便 地 进行 开发 以 及 能 够 编 
译 产 生 高 度 优化 的 代码 ， 关 于 后 者 在 2.1.6 市 已 经 讨论 过 。 


2.4.2 什么 是 代数 

通常 ， 一 门 代数 总 是 由 一 些 操作 符 和 一 些 原 子 操作 数组 成 。 比 如 说 ， 算 术 代数 中 的 原子 操 
作 数 是 像 变量 zx 和 常量 15 这 样 的 操作 数 。 而 加 、 减 、 乘 、 除 是 其 中 的 操作 符 。 任 何 一 门 代数 都 
允许 把 操作 符 作用 在 原子 操作 数 或 者 是 其 他 代数 表达 式 上 构造 表达 式 (expression)。 一 般 地 ， 
括号 被 用 来 组 合 操 作 符 和 操作 数 。 例 如 ， 算 术 中 有 表达 式 : (x+y)*z 或 ((x + 7)/O 一 3)) +x。 

关系 代数 是 另外 一 门 代数 ， 它 的 原子 操作 数 是 : 

1. 代表 关系 的 变量 。 

2. 代表 有 限 关系 的 常量 。 

接 下 来 我 们 将 讨论 关系 代数 的 操作 符 。 


2.4.3 关系 代数 概述 

传统 关系 代数 的 操作 主要 有 以 下 四 类 : 

a) 通常 的 关系 操作 : 并 、 交 、 差 。 

b) 除去 某 些 行 或 者 列 的 操作 。 “选择 ”是 消除 某 些 行 〈 元 组 ) 的 操作 ， 而 “投影 ”是 消除 
某 些 列 的 操作 。 

c) 组 合 两 个 关系 元 组 的 操作 。 包 括 有 “第 卡 儿 积 运 算 ”(Cartesian product) ， 该 操作 尝试 
两 个 关系 的 所 有 可 能 的 元 组 的 配对 方式 ， 形 成 一 个 关系 作为 结果 。 另 外 还 有 许多 “连接 ” 
(join) 操作 ， 它 是 从 两 个 关系 中 选择 一 些 元 组 配对 。 

d) “ 重 命名 ”(renaming) 操作 。 不 影响 关系 中 的 元 组 ， 但 是 它 改 变 了 关系 模式 ， 即 属性 
的 名 称 或 者 是 关系 本 身 的 名 称 被 改变 。 

人 们 一 般 把 关系 代数 的 表达 式 称 为 查询 (query)。 


2.4.4 关系 上 的 集合 操作 
三 个 最 常用 的 集合 操作 是 : 并 (union)、 交 (intersection)、 差 (difference)。 这 里 假设 
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读者 已 经 熟悉 这 三 种 操作 。 下 面 是 这 些 操作 在 任意 集合 R 和 S$ 上 的 定义 : 

。RUS， 表 示 关 系 R 和 S 的 并 ， 所 得 到 的 结果 关系 的 元 素 是 来 自 R 或 者 S 或 者 在 R 和 S 中 都 出 

现 过 ,但 是 对 于 最 后 一 种 情况 ， 结 果 关 系 中 的 这 个 元 素 只 出 现 一 次 。 

。RNS， 表 示 关 系 R 和 S 的 交 ， 就 是 同时 在 R 和 $ 中 存在 的 元 素 的 集合 。 

。R 一 S$， 是 关系 R 和 S$ 的 差 ， 它 是 由 在 R 中 出 现 但 是 不 在 S$ 中 出 现 的 元 素 构成 的 集合 。 

注意 ，5 一 R 与 R 一 5 不 同 ， 前 者 表示 由 只 在 S$ 中 出 现 不 在 R 中 出 现 的 元 素 构成 的 关系 。 

当 在 关系 上 应 用 这 些 操 作 的 时 候 ， 需 要 对 关系 R 和 5 附加 一 些 条 件 : 

1.R 和 5S 必 须 是 具有 同样 属性 集合 的 表 ， 同 时 ，R 和 5 的 各 个 属性 的 类 型 ( 域 ) 也 必须 匹配 。 

2. 在 做 相应 的 集合 操作 〈 指 并 、 交 、 差 ) 之 前 ，R 和 5 的 列 必须 经 过 排序 ， 这 样 保证 它们 
的 属性 序 对 于 两 个 关系 来 说 完全 相同 。 

人 们 有 了 时 希望 对 具有 相同 属性 个 数 、 相 应 的 块 都 相同 、 但 是 只 有 不 同属 性 名 的 关系 进行 
并 、 交 和 差 运 算 等 等 ， 这 时 候 ， 就 要 用 到 重 命 名 (renaming) 操作 ， 对 这 两 个 关系 模式 修改 
使 其 具有 相同 属性 名 。2.4.11 节 将 对 此 进行 介绍 。 


[Ta ge 
Carrie Fisher | 123 Maple St., Hollywood | 了 9/9/99 
Mark Hamill 456 0ak Rd., Brentwood M 8/8/88 

关系 R 
name address gender | birthdate 
Carrie Fisher | 123 Maple St., Hollywood F 9/9/99 
Harrison Ford | 789 Palm Dr., Beverly Hills | M 7/7/77 
关系 5 
图 2-12 两 个 关系 


例 2.8 ”假设 有 两 个 关系 R 和 3 以 及 2.2.8 节 中 的 MovieStar 关 系 实 例 。R 和 3 两 个 关系 实例 如 
图 2-12 所 示 ， 这 样 ， 它 们 的 并 运算 RU 5 的 结果 是 : 


name address gender | birthdate 
Carrie Fisher | 123 Maple St., Hollywood F 9/9/99 
Mark Hamill 456 0ak Rd., Brentwood M 8/8/88 
Harrison Ford | 789 Palm Dr., Beverly Hills | M 7/7/77 


广 意 ， 两 个 表 中 均 有 Carrie Fisher 出 现 ， 但 是 在 结果 中 却 仅 有 一 个 。 
RN 5 的 运算 结果 是 : 
name address yender | birthdate 
Carrie Fisher | 123 Maple St., Hollywood |F 9/9/99 


现在 只 有 Carrie Fisher 出 现 ， 因 为 只 有 这 个 元 组 同时 在 这 两 个 关系 中 出 现 。 
R 一 5 的 运算 结果 是 : 
name Qddress gender | birthdate 
Mark Hamill | 456 Dak Rd., Brentwood | M 8/8/88 
也 就 是 说 , Fisher 和 Hami11 这 两 个 元 组 都 是 R 一 的 候选 元 素 , 但 是 Fisher 在 S 中 也 出 现 , 所 以 ， 
就 不 在 RS 中 了 。 口 
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2.4.5 投影 

投影 (projection) 操作 用 来 从 关系 R 生 成 一 个 新 的 关系 ， 这 个 关系 只 as 
部 分 列 。 表 达 式 Yaa…w (R) 的 值 是 这 样 的 一 个 关系 : 它 只 包含 关系 R 属 性 A1, A2,…, hs 所 代表 
的 列 。 结 果 关 系 模式 的 属性 集合 为 ，{41, 42,…, A,}， 习 惯 上 按 所 列 出 的 顺序 显示 。 


title producerC# 


Star Wars 1977 | 124 sciFi Fox 12345 
Galaxy Quest 1999 | 104 comedy | DreamWorks | 67890 
Wayne’s World | 1992 | 95 comedy | Paramount | 99999 


图 2-13 关系 Movies 


例 2.9 考虑 关系 Movies ， 它 的 关系 模式 在 2.2.8 节 有 描述 。 图 2-13 给 出 了 关系 的 一 个 实例 。 
投影 到 关系 前 三 个 属性 的 表达 式 是 : 


irle, year, length (Movi es) 













所 得 到 的 结果 是 : 
title year | length 


Star Wars 1977 | 124 
Galaxy Quest 1999 | 104 
Wayne’s World | 1992 | 95 


另外 一 个 例子 是 用 表达 式 msenre (Movies) 投 影 到 属性 genre。 结 果 是 一 个 单列 关系 : 
genre 


sciFi 
comedy 


注意 这 里 只 有 两 个 元 组 ， 因 为 图 2-13 中 的 最 后 两 个 元 组 在 genre 分 量 上 具有 相同 的 值 ， 在 
关系 代数 集合 中 ， 重 复元 组 总 是 会 被 排除 。 


关于 数据 质量 


为 使 示例 中 的 数据 尽 可 能 地 精确 并 尊重 演员 们 的 隐私 权 ， 我 们 使 用 了 一 些 伪造 的 关于 
演员 的 地 址 和 其 他 个 人 信息 的 数据 。 








2.4.6 选择 

当选 择 (selection) 操作 符 应 用 到 关系 R 上 时 ， 产 生 一 个 关系 R 的 元 组 的 子 集合 。 结 果 关 
系 的 元 组 必须 满足 某 个 涉及 R 中 属性 的 条 件 C， 这 个 操作 表示 为 :oc (R)。 结 果 关 系 和 原 关 系 
有 着 相同 的 模式 ， 习 惯 上 用 跟 原 关系 相同 的 顺序 列 出 这 些 属性 。 

C 是 某 个 类 型 的 条 件 表达 式 ， 它 与 人 们 熟悉 的 程序 设计 语言 条 件 表 达 式 类 似 。 例 如 : Java 
或 C 语 言 中 if 关 键 字 后 面 的 条 件 表达 式 。 所 不 同 的 是 C 中 的 操作 数 要 么 是 一 个 常数 ， 要 么 是 R 的 
一 个 属性 。 假 设 t 是 R 中 任意 一 个 元 组 ， 把 1 代入 到 条 件 C 中 ， 如 果 代 入 的 结果 为 真 ， 那 么 这 个 
元 组 就 是 oc (R) 中 的 一 个 元 组 ， 否 则 此 元 组 不 在 结果 中 出 现 。 

例 2.10 关系 Movies 还 是 像 图 2-13 中 表示 的 那样 ， 那 么 表达 式 oienemz100 (Movies) 的 结果 是 : 


titie vear | length | genre | ‘studioName | producerC# 


Star Wars 1977 | 124 sciFi | Fox 12345 
Galaxy Quest | 1999 | 104 comedy | DreamWorks | 67890 


第 一 个 元 组 满足 表达 式 lengh> 100， 因 为 当 把 第 一 个 元 组 的 1ength 属 性 用 它 的 实际 值 124 
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代 和 人 后， 它 满足 这 个 条 件 表达 式 124>100。 用 同样 的 方法 知道 ， 图 2-13 的 第 二 个 元 组 也 满足 这 
个 表达 式 ， 所 以 也 应 该 包括 在 结果 当中 。 
第 三 个 元 组 的 1ength 属 性 值 是 95， 同 样 把 这 个 值 代 和 人 到 表达 式 中 ， 得 到 95> 100， 显 然 这 
个 表达 式 的 值 为 false。 因 此 图 2-13 的 最 后 一 个 元 组 不 在 结果 集中 。 口 
例 2.11 ”假设 想 要 得 到 这 样 的 元 组 集合 : 在 关系 Movies 中 所 有 Fox 公 司 出 品 的 至 少 有 100 
分 钟 长 的 电影 。 就 必须 使 用 更 复杂 的 、 包 含 AND 和 两 个 子 条 件 的 表达 式 来 实现 这 样 的 查询 。 这 
个 表达 式 可 以 写成 : 


Olengrh> 100 AND studioName = ‘Fox" (Movi e S) 


元 组 
title year | length | genre | studioName | producerC# 
Star Wars | 1977 | 124 SciFi | Fox 12345 
是 结果 关系 中 唯一 的 元 组 。 口 


2.4.7 笛 卡 儿 积 

关系 R 和 5 的 笠 卡 儿 积 (或 者 称 为 又 积 或 者 就 叫做 积 ) 是 一 个 有 序 对 的 集合 ， 有 序 对 的 第 
一 个 元 素 是 关系 R 中 的 任何 一 个 元 组 ， 第 二 个 元 素 是 关系 8 中 的 任何 一 个 元 组 ， 表 示 为 Rx S$。 
当 R 和 3 都 是 关系 的 时 候 ， 积 本 质 上 仍 是 关系 。 但 是 由 于 R 和 3 这 两 个 关系 的 属性 未 必 只 有 一 个 ， 
所 以 结果 产生 了 更 长 的 元 组 ， 包 括 了 R 和 5 中 的 所 有 属性 。 习 惯 上 ， 在 结果 中 关系 R 中 的 属性 出 
现在 关系 3 的 属性 的 前 面 。 

结果 关系 模式 是 R 和 5 关系 模式 的 并 ,但 是 如 果 R 和 5 恰好 有 同样 的 属性 ， 就 需要 把 至 少 一 
个 关系 中 相应 的 属性 名 更 改 成 不 同 的 名 称 。 为 了 使 含义 清楚 , 如 果 属 性 A 在 关系 R 和 5 中 均 出 现 ， 
则 结果 关系 模式 中 分 别 用 R.A 和 S.A 表示 来 自 R 和 5 的 属性 。 

例 2.12 ”为 了 简单 起 见 ， 利 用 一 个 抽象 例子 来 解释 积 操作 。 令 R 和 3 的 模式 和 元 组 如 图 2-14a 
和 b 所 示 。 于 是 R x 就 有 如 图 所 示 六 个 元 组 。 注 意 这 里 是 怎样 把 每 一 个 R 中 的 元 组 跟 三 个 5 中 
的 元 组 分 别 配 对 ， 因 为 属性 8 在 R 和 5 中 均 出 现 ，R x 5 中 分 别 是 R.B 和 5.8 表 示 。 其 他 几 个 属性 
都 不 会 引起 混淆 ， 所 以 保持 原来 名 字 不 变 。 口 
14|RB|SBICID 














1 TT 
4 17 |8 
9 |10|11 
1A41B| 2 |5 |6 
1 4 |7 |8 
租约 区 

a) 关系 R c) Rx 5 的 结果 ， 

图 2-14 两 个 关系 以 及 它们 的 笛 卡 儿 积 
2.4.8 自然 连接 


跟 积 相 比 ， 人 们 更 经 常 对 两 个 关系 做 连接 (join) 操作 ， 连 接 时 相应 的 元 组 必须 在 某 些 方 
面 一 致 。 最 简单 的 就 是 所 谓 的 自然 连接 (natural join)。 关 系 R 和 5 的 自然 连接 表示 为 RS。 此 
操作 仅仅 把 在 R 和 5 模式 中 有 某 共同 属性 ， 且 此 属性 有 相同 的 值 的 元 组 配对 。 举 例 来 说 ， 假 设 R 
和 5 的 模式 有 公共 属性 A1, A;, …, A,，r 和 s 是 分 别 来 自 R 和 5 的 元 组 ， 则 当 且 仅 当 xr 和 s 的 41, 42, …， 
4;, 属 性 值 都 一 样 时 ，r 和 s 才 能 配对 ， 作 为 结果 关系 中 的 元 组 。 
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如 果 把 r 和 s 连 接 作为 R m5 结果 的 元 组 ， 则 这 个 元 组 被 称 为 连接 元 组 (joined tuple)。 连 接 
元 组 具有 R 和 5 连接 的 所 有 成 分 。 连 接 之 后 的 元 组 跟 元 组 7 在 模式 R 
的 所 有 属性 上 有 相同 值 ， 同 样 ， 跟 ;在 模式 的 所 有 属性 上 有 相同 。 一 一 一 一 5 
的 值 。 一 旦 r 和 s 被 成 功 地 配对 ， 那 么 连接 之 后 的 元 组 跟 原 来 的 两 
个 元 组 在 相同 的 属性 上 有 相同 的 值 。 这 一 点 在 图 2-15 中 可 以 清楚 
看 到 。 关 系 R 和 5 中 的 属性 在 结果 中 可 以 以 任何 次 序 出 现 。 

例 2.13 图 2-14a 和 b 中 关系 R 和 5 的 自然 连接 是 ; 





-413lclD 连接 的 元 组 
二 小 蕊 5 6 


3|4|17|8 图 2-15 连接 两 个 元 组 
唯一 一 个 R 和 5 共同 的 属性 是 8。 只 要 在 属性 8 上 相同 的 元 组 就 可 以 成 功 地 连接 。 如 果 这 样 的 话 ， 
结果 元 组 中 就 有 属性 4 (来 自 R)，B (来 自 5 或 者 R)，C (来 自 5), D (来 自 5)。 

在 这 个 例子 中 ，R 的 第 一 个 元 组 成 功 地 和 5 的 第 一 个 元 组 组 成 一 对 ， 它 们 在 属性 8 上 有 共同 
的 值 2。 这 个 配对 产生 了 连接 结果 的 第 一 个 元 组 : (1, 2, 5, 6)。 关 系 R 的 第 二 个 元 组 只 可 以 跟 5 
的 第 二 个 元 组 配对 ， 结 果 是 (3, 4, 7, 8)。 注 意 ， 关 系 $ 的 第 三 个 元 组 不 能 跟 关系 R 的 任何 一 个 元 
组 配对 ， 所 以 不 在 结果 Rm 5 中 出 现 。 在 一 个 连接 当中 ， 如 果 一 个 元 组 不 能 和 另外 关系 中 的 任 
何 一 个 元 组 配对 的 话 ， 这 个 元 组 就 被 称 为 悬浮 元 组 (dangling tuple)。 口 

例 2.14 ”前 面 的 例子 并 没有 阐明 自然 连接 操作 所 有 可 能 的 情况 。 例 如 ， 没 有 元 组 可 以 跟 
超过 一 个 元 组 配对 成 功 ， 并 且 两 个 关系 模式 只 有 一 个 共同 属性 。 图 2-16 中 ， 有 另外 两 个 关系 U 
和 V， 它 们 的 关系 模式 有 共同 的 属性 8 和 C。 在 例子 中 ， 一 个 元 组 可 以 与 男 外 几 个 元 组 连接 。 

只 有 在 属性 8 和 C 上 一 致 的 元 组 才能 配对 成 功 。 这 样 ，U 的 第 一 个 元 组 可 以 和 V 的 第 一 和 第 二 个 
元 组 相连 接 。 而 U 的 第 二 和 第 三 个 元 组 和 的 第 三 个 元 组 配对 。 这 四 个 配对 的 结果 在 图 2-16c 中 给 出 。 口 


AIBIC 

iI2| 3 |4 
6 |7 |18 3 |5 
9|17F |8 8 |10 


a) 关系 U b) 关系 V c) R B45 的 结果 
图 2-16 关系 的 自然 连接 





2.4.9 6 连接 

自然 连接 必须 根据 某 些 特定 的 条 件 来 把 元 组 配对 。 虽 然 ， 相 等 的 公共 属性 是 关系 连接 最 
常见 的 基础 。 但 是 人 们 有 时 候 需 将 满足 其 他 条 件 的 元 组 配对 。 为 此 目地 ， 就 有 了 相应 的 6 连接 
操作 (theta-join)。 历 史上 蝶 指 任意 条 件 ， 但 现在 一 般 用 C 而 不 是 9 污 示 这 个 条 件 。 

关系 R 和 关系 5 满足 条 件 C 的 BG 连接 可 以 这 样 用 符号 来 表示 :; Rm cs。 这 个 操作 的 结果 是 这 
样 构造 的 : 

1 . 先 得 到 R 和 5 的 积 。 

2. 在 得 到 的 关系 中 寻找 满足 条 件 C 的 元 组 。 

就 像 在 积 操作 中 一 样 ， 结 果 关 系 的 模式 是 模式 R 和 模式 S 的 并 。 如 果 有 必要 的 话 ， 需 要 在 
重 名 的 属性 前 面 加 上 “R.” 或 者 “5.”。 

例 2.15 考虑 这 样 的 操作 Um apV。 其 中 U 和 V 是 图 2-16 中 的 关系 。 这 里 必须 考虑 九 个 元 组 
的 配对 方案 。 看 一 看 来 自 U 的 元 组 的 属性 4A 是 不 是 比 来 自 V 的 元 组 的 属性 D 的 值 小 。U 的 第 一 个 
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元 组 4 属性 值 是 1， 这 个 元 组 可 以 和 任何 来 自 V 的 元 组 配对 。 但 是 第 二 和 第 三 个 元 组 的 A 属性 值 
分 别 是 6 和 9， 分 别 只 能 和 V 的 最 后 一 个 元 组 配对 。 这 样 ， 所 得 到 的 结果 关系 就 只 有 五 个 元 组 ， 
即 是 刚才 配对 成 功 的 那些 。 这 个 关系 在 图 2-17 中 给 出 。 口 
注意 ， 连 接 的 结果 关系 模式 是 由 所 有 的 六 个 属性 
组 成 。 公 共 属 性 8 和 C 前 面 加 了 关系 名 U 和 V 以 示 区 别 ， 
如 图 2-17 所 示 。6 连 接 和 自然 连接 相 比较 ， 后 者 把 公共 
属性 合并 成 一 个 属性 ， 这 是 由 于 参加 运算 的 两 个 元 组 
可 以 配对 当 且 仅 当 它们 的 公共 属性 有 相同 的 值 。 但 是 
在 6 连接 当中 , 并 不 能 保证 进行 比较 的 属性 有 相同 的 值 ， 
因为 它们 有 可 能 不 是 用 “=” 进 行 比较 。 
例 2.16 ”下面 是 关系 U 和 V 的 更 为 复杂 的 连接 ，U maco nw vszvaV。 结 果 不 仅仅 要 求 U 关 系 
元 组 的 4 属性 小 于 V 关 系 元 组 的 D 属 性 ， 而 且 U 和 V 元 组 的 8 属性 不 能 有 同样 的 值 。 这 里 只 有 元 组 
A4|UB|UCO|VB| VOID 
| 3 7 8 10 口 
唯一 满足 两 个 条 件 ， 所 以 它 就 是 最 后 的 结果 。 


2.4.10 组合 操作 构成 查询 

如 果 只 能 在 单个 或 者 两 个 关系 上 进行 一 个 操作 ， 那 么 关系 代数 就 不 会 那么 有 用 。 可 是 ， 
如 同 其 他 的 所 有 代数 一 样 ， 关 系 代数 允许 任意 复杂 的 表达 式 ， 其 操作 符 可 以 用 于 任何 关系 之 
上 ， 这 个 关系 既 可 以 是 某 个 给 定 关系 ,也 可 以 是 操作 得 到 的 结果 关系 。 

可 以 在 子 表达 式 上 应 用 算 符 来 构造 新 的 关系 代数 表达 式 ， 必 要 的 时 候 用 括号 把 操作 数 分 
割 开 。 也 可 以 用 表达 式 树 来 表示 这 种 表达 式 ， 虽 然 这 种 表达 式 对 机 器 来 说 比较 难以 处 理 ， 但 
是 它 更 易于 理解 。 

例 2.17 ”考虑 Movies 关 系 。 假 设 人 们 想 知 道 “ 由 
Fox 制 作 的 至 少 100 分 钟 的 电影 的 名 称 (title) 和 制作 
年 份 (year)”。 计 算 该 查询 的 一 种 方法 是 : AN 

1. 选择 length > 100 分 钟 的 Movies 关 系 中 的 元 组 。 i 

2. 选择 studioName= “Fox” 的 Movies 元 组 。 

3. 计算 (1) 和 (2) 两 个 查询 结果 的 交集 。 ti 

4. 把 (3) 得 到 的 关系 投影 到 tit1e 和 year 属 性 上 。 

在 图 2-18 中 人 们 看 到 ， 前 面 所 说 的 几 个 步骤 可 以 用 Movies Movies 
表达 式 树 来 表示 。 表 达 式 树 的 计算 是 从 下 向 :上 ， 内 部 图 2-18 关系 代数 表达 式 的 表达 式 树 
节点 上 操作 符 的 参量 是 其 子 树 的 结果 。 由 于 是 自 下 而 
上 计算 ， 因 此 其 子 树 的 参量 是 可 用 的 。 表 达 式 树 中 ， 两 个 选择 操作 的 节点 对 应 着 第 (1) 和 第 (2) 
步 。 交 操作 节点 对 应 第 (3) 步 ， 投 影 节点 是 第 (4) 步 。 

习惯 上 常 选用 线性 符号 来 表示 同样 的 表达 式 。 如 下 公式 

Tiinle, year ( Olength= i600(MOV i es) (\| Ovwaiovame = ‘Fox: (Movies) 
表示 的 是 同一 个 表达 式 。 

经 常 地 ， 同 一 个 计算 可 以 用 多 个 不 同 的 关系 代数 表达 式 来 描述 。 例 如 ， 上 面 的 查询 可 以 
用 逻 辑 AND 操 作 来 替换 “ 交 ”。 即 





图 2-17 UmaacpV 的 结果 


% title, year 
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Mirla, vear ( Olength= 100 AND srudioName = ‘Fox"* (Movi es) 
是 该 查询 的 一 个 等 价 形式 。 口 
等 价 表达 式 和 查询 优化 


所 有 数据 库 系统 都 有 查询 应 答 系 统 ， 其 中 许多 是 基于 接近 关系 代数 表达 能 力 的 语言 。 
这 样 ， 用 户 提 交 的 查询 可 以 有 许多 等 价 表达 式 (equivalent expression) ( 即 只 要 给 出 同样 的 


操作 数 ， 这 些 表达 式 就 能 产生 同样 的 结果 )， 其 中 有 的 表达 式 能 更 快 地 被 计算 出 结果 。 在 
1.2.5 节 中 简要 讨论 过 的 查询 “优化 器 ”的 重要 作用 ， 就 是 把 某 个 关系 代数 表达 式 蔡 换 为 更 
加 有 效 计 算 的 等 价 形式 。 





2.4.11 命名 和 重 命名 

为 了 有 效 地 管理 由 关系 代数 生成 的 结果 关系 的 属性 名 字 ， 通 常会 引进 一 个 重 命名 操作 。 
算 符 ps (41, 42, …, 4) (R) 表 示 对 关系 R 重 新 命名 。 重 命名 后 的 关系 与 关系 R 有 完全 相同 的 元 组 ， 
只 不 过 关系 的 名 字 变 成 了 5S。 另外 ，5 关 系 的 各 个 属性 分 别 命 名 为 41, 4;, …, A,， 按 从 左 到 右 的 
顺序 排列 。 如 果 只 是 想 把 关系 R 的 名 字 改 变 为 Ss*， 并 不 改变 其 中 属性 的 名 字 ， 就 可 以 简单 地 使 
用 ps(R) 即 可 。 

例 2.18 在 例 2.12 我 们 对 图 2-14a 和 b 中 的 两 个 关系 R 和 3 进行 了 积 操作 ， 并 约定 当 两 个 关系 存 
在 同名 属性 时 ， 分 别 把 关系 的 名 字 作 为 结果 属性 名 称 的 前 级 。 假 如 不 希望 把 两 个 属性 B 称 作 R.B 
或 者 是 $5.8， 而 是 仍然 希望 来 自 R 的 属性 8 保持 原来 的 名 称 ， 来自 5 的 属性 B 改 为 X。 操 作 ps (x cm (5) 
的 结果 是 一 个 名 为 5 的 关系 ， 它 看 起 来 与 5 很 相似 。 唯 一 的 不 同 是 此 
关系 的 第 一 个 属性 名 是 X 而 不 是 B。 

用 重 命名 后 的 关系 和 关系 R 进 行 积 操 作 就 不 会 有 任何 命名 冲突 ， 
也 就 不 需要 再 进一步 更 改 属性 名 。 也 就 是 说 ， 表 达 式 R x psw cm (5) 
的 结果 与 图 2-14c 中 R x 5 的 结果 相同 ， 只 是 结果 的 列 标题 从 左 到 右 
分 别 是 : A, B,X, C,D。 图 2-19 展 示 了 这 个 关系 。 

也 可 以 不 重 命名 就 直接 进行 积 操作 ， 就 像 在 例 2.12 中 所 做 的 那 图 2-19 Rxpsecp (5) 
样 ， 到 最 后 再 对 结果 进行 重 命名 。 表 达 式 prs (a 8.x cp (RX5) 可 以 
产生 与 图 2-19 同 样 的 结果 ， 包 括 其 中 属性 的 名 字 。 另 外 ， 这 次 的 关系 有 了 新 的 名 字 RS， 而 图 
2-19 中 的 关系 没有 名 字 。 口 
2.4.12 操作 之 间 的 联系 

在 2.4 节 中 介绍 的 操作 ， 有 一 些 可 以 用 其 他 关系 代数 操作 来 表达 。 例 如 ， 交 运算 可 以 用 差 
运算 符 表示 如 下 : 





RNS=R=(R= 
意思 就 是 ， 如 果 R 和 5 是 任意 的 两 个 关系 ， 它 们 有 同样 的 模式 ， 那 么 R 和 5 的 交 运 算 可 以 通过 如 
下 步骤 实现 : 从 R 中 减 去 $5， 形 成 一 个 新 的 关系 T， 它 包含 那些 在 R 中 但 是 不 在 5 中 出 现 的 元 组 ，。 
然后 再 从 R 中 将 7 减 去 ， 这 样 就 只 剩 下 那些 既 在 R 中 又 在 5 中 出 现 的 元 组 了 。 
两 种 形式 的 连接 操作 同样 可 以 用 其 他 操作 来 实现 。 比 如 6 连接 可 以 用 积 操作 和 选择 操作 来 
实现 : 
RiacS = Oc(RxS) 
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R 和 3 的 自然 连接 可 以 通过 先 做 一 个 积 操作 ， 然 后 再 按 如 下 形式 的 条 件 C 进 行 选择 来 实现 : 
R.A! = S.A! AND R.4: = S.4 AND…AND R.4 = S.A; 
这 里 ，A41, 4A2, …, hs, 是 所 有 同时 出 现在 R 和 5 中 的 属性 。 最 后 ， 对 于 相同 的 属性 必须 投影 出 一 份 
拷贝 。 令 L 是 所 有 R 中 的 属性 和 在 5 中 但 不 在 中 的 属性 的 列表 ， 那 么 
RomS=A (oc(R x S)) 
例 2.19 图 2-16 中 U 和 V 的 自然 连接 可 以 写成 含有 积 、 选 择 、 投 影 的 式 子 : 
MA.U.B.U.C. D(Ov. B=v8 ANWD Uc=vc (U x V)) 
也 就 是 说 先 得 到 积 U x V。 然 后 在 其 中 寻找 使 得 8, C 属 性 相等 的 元 组 。 最 后 ， 将 其 投影 到 除去 
一 个 B 和 一 个 C 之 外 的 所 有 属性 上 。 这 里 是 选择 除去 关系 V 和 U 中 同时 出 现 的 属性 。 
另外 一 个 例子 是 关于 图 2-16 中 的 6 连接 ， 它 可 以 写成 : 
COM<DAND va#vB(U XV) 


也 就 是 说 ， 先 进行 积 操作 ， 然 后 用 6 连接 中 的 条 件 进 行 选 择 。 口 

本 节 中 谈 到 的 重 写 规则 是 已 介绍 的 所 有 操作 中 仅 有 的 “元 余 "。 其 余 六 个 操作 (并 、 差 、 
选择 、 投 影 、 积 运算 和 重 命名 ) 构成 了 一 个 独立 的 集合 ， 这 个 集合 中 的 每 一 个 操作 都 不 能 被 
这 个 集合 中 余下 的 操作 来 实现 。 


2.4.13 代数 表达 式 的 线性 符号 

在 2.4.10 节 ， 曾 用 表达 式 树 表示 复杂 的 关系 代数 表达 式 。 另 一 种 方法 是 生成 若干 临时 关系 ， 
用 来 表示 树 的 内 节点 ， 并 写 一 系列 的 赋值 语句 使 其 具有 正确 的 值 。 这 些 赋值 语句 的 顺序 可 变 ， 
只 要 保证 在 对 节点 N 赋 值 之 前 N 的 子 节 点 赋值 完毕 就 可 以 。 

赋值 语句 中 用 到 的 符号 有 : 

1. 关系 的 名 字 和 用 圆 括号 括 起 的 关系 属性 的 列表 。 名 字 Answer 习 惯 上 表示 最 后 一 步 运 算 
的 结果 ， 也 就 是 在 表达 式 树 根 节点 上 的 关系 名 。 

2. 赋值 符号 : sw 

3. 赋值 号 右边 的 任何 代数 表达 式 。 可 以 采用 每 个 赋值 语句 只 用 一 个 算 符 的 方法 ， 这 样 每 
一 个 内 部 节点 都 有 自己 的 赋值 语句 相对 应 。 可 是 ， 如 果 方 便 的 话 ， 仍 然 可 以 把 几 个 代数 运算 
组 合 到 一 起 写 在 表达 式 的 右 端 。 

例 2.20 考虑 图 2-18 中 的 树 。 计 算 该 表达 式 的 一 个 可 能 的 结果 赋值 序列 如 下 : 

R(t,y,l1,i,s,p) := Olength>100 (Movies) 

S(t,y,1,i,s,p) := OstudioName=’For’ (Movies) 


T(t,Y,1,1,8,p) := RNS 
Answer (title, year) := Tty(T) 


第 一 步 ， 计 算 图 2-18 中 标注 为 0iner>10 的 内 部 节点 关系 ， 第 二 步 计 算 标注 是 Ovwiiowame= 'Fox 的 节 
点 。 注 意 ， 因 为 只 要 人 们 愿意 就 可 以 对 关系 的 左边 使 用 任何 属性 和 关系 的 名 字 ， 所 以 可 以 自 
由 重 命 名 。 最 后 两 步 显然 是 进行 交 运 算 和 投影 运算 。 
如 前 所 述 ， 可 以 对 某 些 操作 步骤 进行 合并 。 例 如 ， 可 以 对 最 后 两 步 进行 合并 ， 写 成 : 
R(t,y,1,i,s,p) := Olength>100 (Movies) 


S(t sy»1,i,s,p) := OstudioName=’For’ (Movies) 
Answer (title，year) := my(R NM S) 


甚至 还 可 以 将 整个 查询 写成 一 行 。 口 
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2.4.14 习题 
习题 2.4.1 ”这 个 习题 与 2.3.1 一 样 ， 也 是 基于 产品 数据 库 模 式 。 该 数据 库 模式 由 四 个 关系 组 成 ， 这 四 个 
关系 的 模式 如 下 ; 


Product (maker, model, type) 

PC(model, speed, ram, hd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer (model, color, type, price) 


关系 Product 的 一 些 数据 的 例子 在 图 2-20 中 给 出 。 另 外 三 个 关系 的 样 例 数据 在 图 2-21 中 给 出 。 生 产 厂 
商 和 模型 号 的 值 被 忽略 了 ， 但 是 这 些 数据 反映 了 2007 年 年 初 的 行情 。 


ink-jet 
laser 
laser 
ink-jet 
laser 
ink-jet 
laser 


printer 
printer 
printer 
laptop 
laptop 
laptop 
printer 


printer c) 关 系 Printer 的 数据 取样 
图 2-20 关系 product 的 数据 取样 图 2-21 习题 24.1 的 样 例 数据 





A 
A 
A 
A 
A 
A 
B 
B 
B 
B 
C 
D 
D 
D 
D 
D 
E 
E 
E 
E 
E 
E 
E 
E 
E 
F 
F 
G 
H 
H 
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试 写 出 下 列 查询 的 关系 代数 表达 式 。 可 以 用 2.4.13 节 介绍 的 线性 算 符 写 这 些 表 达 式 ， 并 针对 图 2-20 
和 图 2-21 的 数据 ， 给 出 查询 的 结果 。 但 是 ， 你 的 答案 应 该 在 任何 数据 上 都 能 正确 工作 ， 而 不 仅 限于 
图 中 的 数据 。 

a) 哪 种 PC 模型 具有 最 少 3.00 的 速度 ? 

b) 哪个 生产 厂商 的 笔记 本 电脑 (笔记本) 的 硬盘 容量 至 少 100GB? 

c) 查询 厂商 8 生产 的 所 有 产品 的 型 号 和 价格 。 

d) 查询 所 有 彩色 激光 打印 机 的 型 号 。 

e) 查询 那些 只 出 售 笔记 本 电脑 ， 不 出 售 PC 的 厂商 。 

!f) 查询 在 一 种 或 者 两 种 PC 机 中 出 现 过 的 硬盘 的 容量 。 

!g) 查询 有 同样 处 理 速度 和 同样 内 存 大 小 的 PC 对 。 每 对 只 被 列表 一 次 ， 即 列表 给 出 (i,j) 但 不 给 出 (,i)。 
!lh) 查询 那些 至 少 生产 两 种 处 理 速 度 大 于 2.80 的 PC 或 者 笔记 本 电脑 的 厂商 。 

!1i) 查询 平均 处 理 速 度 (PC 或 者 是 笔记 本 电脑 ) 最 高 的 所 有 厂商 。 

1) 查询 至 少 生产 三 种 不 同 处 理 速 度 电脑 的 厂商 。 

!!k) 查询 恰好 出 售 三 种 型 号 的 PC 厂商 。 
习题 2.4.2 画 出 上 题 中 每 个 查询 的 表达 式 树 。 
习题 2.4.3 ”这 个 习题 使 用 了 习题 2.3.2 的 二 战 中 的 大 型 舰 船 数据 库 。 该 数据 库 由 以 下 几 个 关系 组 成 : 
Classes(class, type, country, numGuns, bore, displacement) 

Ships(name, class, launched) 


Battles(name, date) 
Dutcomes(ship, battle, result) 


图 2-22 和 图 2-23 给 出 了 这 四 个 关系 的 样 例 数据 ?。 需 要 注意 的 是 ， 跟 习题 2.4.1 不 同 ， 在 这 个 习题 中 
存在 着 “ 蚌 浮 元 组 ”"”， 比 如 ， 在 关系 0utcomes 中 出 现 的 船只 可 能 在 关系 Ships 中 查 不 到 。 
编写 实现 下 面 这 些 查 询 的 关系 代数 表达 式 。 可 以 用 2.4.13 节 介绍 的 线性 算 符 写 这 些 表达 式 ， 并 针 
对 图 2-22 和 图 2-23 的 数据 ， 给 出 查询 的 结果 。 可 是 ， 你 的 答案 应 该 不 只 是 对 图 中 的 数据 有 效 ， 应 该 
对 任意 的 数据 都 有 效 。 
a) 查询 那些 火炮 口径 大 于 16 英 寸 的 舰 船 类 属 和 生产 国 。 
b) 查询 那些 在 1921 年 之 前 服役 的 舰 船 。 
c) 查询 在 丹麦 海峡 (Denmark Strait) 战役 中 沉没 的 舰 船 。 
d) 1921 年 签署 的 华盛顿 条 约 禁止 制造 超过 35 000 吨 的 大 型 军舰 ， 请 列 出 那些 违背 华盛顿 条 约 的 军舰 。 
e) 列 出 参加 了 瓜 达 康 纳 尔 岛 (Guadalcanal) 海战 的 战舰 的 名 称 、 排 水 量 及 火炮 的 数目 。 
f) 列 出 所 有 在 此 数据 库 中 提 到 的 军舰 (注意 ， 这 些 军舰 可 能 不 是 全 部 都 会 在 关系 Ships 里 出 现 )。 
!g) 列 出 只 包含 一 艘 军舰 的 类 属 。 
!h) 列 出 那些 既 有 战列舰 又 有 近 洋 舰 的 国家 。 妆 
!i) “ 留 得 青山 在 ， 不 怕 没 柴 烧 "， 列 出 那些 在 某 战 役 中 受伤 但 是 后 来 又 参加 了 其 他 战役 的 战舰 。 
习题 2.4.4 画 出 习题 2.4.3 各 查询 的 表达 式 树 。 
习题 2.4.5 ”连接 Rm4S 和 自然 连接 R mc5 的 区 别 是 什么 7 这里， 条件 C 为 R. 4 = 5. 4。 其 中 4 是 任何 一 个 
同时 出 现在 R 和 5 模式 中 的 属性 。 
! 习 题 2.4.6 ”一 个 关系 操作 符 被 称 作 是 单调 的 ， 当 且 仅 当 对 其 运算 参数 增加 任何 元 组 时 ， 其 结果 中 始终 
至 少 包含 那些 原 有 的 元 组 (也 可 能 包含 其 他 更 多 元 组 ) 。 本 节 中 的 几 个 操作 符 中 ， 那 些 是 单调 操作 
符 ? 对 于 每 个 操作 符 ， 如 果 是 单调 的 ， 给 出 理由 ， 如 果 不 是 单调 的 ， 举 例 说 明 原 因 。 


日 来 产 : J.N. Westwood, Fighting Ships of World War I, Follett Publishing, Chicago, 1975 and R. C. Stern, US 
Battleships in Action, Squadron/Signal Publications, Carrollton, TX, 1980 。 
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country numGuns | bore | displacement 


Bismarck Germany 
Iowa USA 
Kongo Japan 


North Carolina USA 

Renown Gt. Britain 
Revenge Gt. Britain 
Tennessee USA 

Yamato Japan 


a) 关系 Classes 的 数据 取样 


FONOVVLm 





Arizona Pearl Harbor 
Bismarck Denmark Strait 
California Surigao Strait 
Duke of York North Cape 
Fuso Surigao Strait 
Hood Denmark Strait 
King George V Denmark Strait 
Kirishima Guadalcanal 
Prince of Wales | Denmark Strait 
Rodney Denmark Strait 
Scharnhorst North Cape 
South Dakota Guadalcanal 
Denmark Strait | 5/24-27/41 Tennessee Surigao Strait 
Guadalcanal 11/15/42 Washington Guadalcanal 
North Cape 12/26/43 West Virginia Surigao Strait 
Surigao Strait | 10/25/44 Yamashiro Surigao Strait 


b) 关系 Batt1e 的 数据 取样 c) 关系 0utcomes 的 数据 取样 
图 2-22 习题 2.4.3 的 数据 





California Tennessee 
Haruna Kongo 
Hiei Kongo 
Iowa Iowa 
Kirishima Kongo 
Kongo Kongo 
Missouri Iowa 
Musashi Yamato 
New Jersey Iowa 
North Carolina | North Carolina 
Ramillies Revenge 
Renown Renown 
Repulse Renown 
Resolution Revenge 
Revenge Revenge 
Royal 0ak Revenge 
Royal Sovereign | Revenge 
Tennessee Tennessee 
Washington North Carolina 
Wisconsin Iowa 
Yamato Yamato 


图 2-23 关系 Ships 的 数据 取样 
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! 习 题 2.4.7 假设 关系 R 和 关系 各 有 n 个 和 m 个 元 组 。 对 于 下 面 的 表达 式 ， 给 出 结果 中 可 能 出 现 的 最 多 和 

最 少 的 元 组 数目 。 

a) RUS, 

b)RmS, 

c) 对 于 某 个 条 件 C，oc(R) x 5S。 

d) 对 于 某 个 属性 列表 L ，xti (R) 一 5。 

! 习 题 2.4.8 ”关系 R 和 5 的 半 连 接 (semijoin) 写作 RS， 它 表示 由 R 中 的 满足 如 下 条 件 的 元 组 ! 组 成 的 集 
合 : 至 少 跟 5 中 的 一 个 元 组 在 R 和 5 的 公共 属性 上 相同 。 用 三 种 不 同 的 关系 代数 表达 式 给 出 RX 5 的 等 
价 表示 。 

! 习 题 2.4.9 反 半 连接 (antisemijoin) R 下 5 是 由 R 中 的 元 组 1 构成 的 集合 : ! 在 R 和 5 的 公共 属性 上 不 能 跟 5 
中 的 任何 元 组 相等 。 给 出 一 个 等 价 于 R 下 5 的 关系 代数 表达 式 。 

!! 习 题 2.4.10 假设 R 是 具有 如 下 模式 的 关系 : 

(AD 42 An Bi, B;, -…*, Bn) 


关系 S 具 有 模式 (B81, B;, …, Bw)， 也 就 是 说 ， 它 的 属性 是 关系 R 的 属性 的 子 集 。R 和 5 的 商 (quotient)， 
记 作 R= SS， 是 具有 属性 4, A, …, 4 的 元 组 集 〈 即 那些 是 R 中 的 属性 但 却 不 是 S 中 的 属性 ) ， 使 得 对 于 
$ 中 的 任何 元 组 *， 元 组 # (包括 ! 中 4A, 42, …, 4, 属 性 的 值 和 s 中 (B1, B2, …, Bw) 属 性 的 值 ) 都 是 关系 R 中 
的 元 组 。 用 前 面 已 经 定义 过 的 关系 操作 符 写 出 与 R* 8 等 价 的 关系 代数 表达 式 。 


2.5 关系 上 的 约束 


现在 开始 讨论 关系 模型 的 第 三 个 很 重要 的 方面 : 约束 ， 即 关系 模型 对 于 存储 在 数据 库 中 的 
数据 具有 的 约束 能 力 。 到 目前 为 止 ， 只 提 到 了 一 种 约束 ， 即 由 单个 属性 或 多 个 属性 构成 的 键 
约束 (2.3.6 节 )。 这 类 约束 或 很 多 其 他 的 约束 都 可 以 用 关系 代数 进行 描述 。 本 节 将 讨论 键 约束 
和 “引用 完整 性 ”约束 ， 后 者 要 求 在 一 个 关系 属性 列 中 出 现 的 值 也 必须 在 同一 个 或 不 同 关 系 
相应 列 中 出 现 。 第 7 章 中 ， 将 看 到 利用 SQL 数据 库 系统 也 可 以 像 关 系 代 数 一 样 对 数据 施加 约束 。 


2.5.1 作为 约束 语言 的 关系 代数 

用 关系 代数 表示 约束 有 如 下 两 种 方法 : 

1. 如 果 R 是 关系 代数 表达 式 ， 那 么 R= 表示“R 的 值 必须 为 空 ” 的 约束 ， 与 “R 中 没有 元 
组 ”等 价 。 

2. 如 果 R 和 5 是 关系 代数 表达 式 , 那么 R C5 表示 “任何 在 R 中 出 现 的 元 组 都 必须 在 5 中 出 现 ” 
的 约束 ， 当 然 5 中 可 能 包含 其 他 不 在 R 中 出 现 的 元 组 。 

表示 约束 的 方法 虽然 很 多 ， 但 是 在 效果 上 来 说 都 是 等 价 的 ， 只 是 有 时 某 些 方法 可 能 更 简 
洁 。 例 如 ， 约 东 R C5 也 可 以 写成 R-S= 多 ， 因 为 如 果 每 个 在 R 中 出 现 的 元 组 在 S 中 也 出 现 的 话 ， 
那么 RS 就 是 空 。 反 过 来 ， 如 果 R5 没 有 任何 元 组 ， 那 么 任何 在 R 中 出 现 的 元 组 也 必然 在 5 中 
出 现 (否则 该 元 组 必 出 现在 R--5 里 面 )。 

另 一 方面 ， 第 一 种 形式 的 约束 R= 多 也 可 以 写成 RC 如。 从 技术 上 讲 ， 儿 不 是 关系 代数 中 的 
表达 式 ， 但 是 既然 有 跟 儿 等 价 的 表达 式 ， 例 如 R 一 R， 那 么 把 儿 当 作 一 个 关系 代数 表达 式 也 没有 
什么 不 好 。 

接 下 来 的 几 节 中 ， 将 介绍 怎么 使 用 这 两 种 不 同形 式 表示 重要 的 约束 。 在 第 7 章 中 将 看 到 ， 
第 一 种 风格 的 约束 是 SQL 编程 当中 最 常用 的 约束 。 但 是 同样 也 可 以 用 集合 包含 风格 来 考虑 问 
题 ， 然 后 再 转换 成 空 集 等 价 的 风格 。 
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2.5.2 引用 完整 性 约束 

引用 完整 性 约束 (referential integrity constraint) 是 一 种 普通 的 约束 。 它 规定 在 某 个 上 下 
文中 出 现 的 值 也 必须 在 另外 一 个 相关 的 上 下 文中 出 现 。 举 例 来 说 ， 在 Movies 数 据 库 中 ， 关 系 
StarsIn 的 一 个 元 组 的 starName 分 量 的 值 为 p?， 那 么 ， 人 们 希望 值 p 作 为 某 个 演员 的 名 字 也 出 
现在 关系 MovieStar 里 。 如 果 关 系 MovieStar 里 面 没 有 该 值 ， 则 有 理由 怀疑 “p” 是 否 真 的 是 
一 个 演员 。 

概括 来 讲 ， 如 果 关 系 R 中 的 某 个 元 组 的 属性 分 量 ( 设 为 4) 的 值 为 "， 那 么 按照 设计 意图 ， 
人 们 期 望 » 也 是 另 一 个 关系 $8 的 某 个 元 组 的 一 个 相应 的 属性 分 量 ( 设 为 B) 的 值 。 用 关系 代数 将 
引用 完整 性 表述 为 X,(R)C zs(S) ， 或 者 等 价 地 写 为 

ma(R)—Nns($)= 全 
例 2.21 考虑 电影 数据 库 中 的 两 个 关系 : 


Movies(title, year, length, genre, studioName, producerC#) 
MovieExec(name, address, cert#, netWorth) 


有 理由 假设 每 部 电影 的 制 片 都 必定 在 关系 MovieExec 中 出 现 。 否 则 ， 就 应 认为 某 些 地 方 出 现 了 
问题 ， 此 时 ， 至 少 需要 关系 数据 库 告诉 用 户 : 数据 库 中 存在 一 部 电影 ， 它 的 制 片 者 未 知 。 

更 准确 地 说 ，Movies 中 每 个 元 组 的 producerC# 分 量 也 必须 在 关系 MovieExec 元 组 的 cert# 
分 量 中 出 现 。 因 为 制 片 均 被 证 书号 唯一 地 标识 ， 因 此 必须 保证 电影 的 制 片 能 够 在 关系 
MoviesExec 中 找到 。 该 约束 用 集合 -包含 的 形式 写 为 : 

Moroducercs( MoOVies) C moma (MovieExec) 


上 面 左 边 表 达 式 的 值 是 关系 Movies 元 组 的 producerC# 分 量 中 出 现 的 所 有 证 书号 集合 。 类 似 地 ， 
右边 表达 式 的 值 是 关系 MovieExec 元 组 cert# 分 量 的 集合 。 整 个 约束 所 表达 的 意思 是 ， 在 前 一 


个 集合 中 出 现 的 每 个 证 书号 必定 也 在 后 一 个 集合 中 出 现 。 口 
例 2.22 如果 一 个 “ 值 ” 在 多 个 属性 中 出 现 ， 则 也 可 以 为 它 引 入 引用 完整 性 约束 。 例 如 ， 
假设 在 关系 


StarsIn(movieTitle, movieYear, starName) 


， 中 涉及 的 任何 一 部 电影 也 出 现在 下 面 的 关系 中 : 


Movies(title, year, length, genre, studioName, producerC#) 
在 这 两 个 关系 中 ， 电 影 都 使 用 名 称 - 年 份 属性 对 表示 ， 因 为 单独 的 电影 名 字 或 者 制作 年 份 都 不 
足以 单独 来 标识 一 部 电影 。 约 束 
MnovieTile, movieyear( Stars1n) C mine, year(Movies) 
表达 了 这 个 引用 完整 性 约束 ， 其 方法 是 通过 把 两 个 关系 都 投影 到 合适 的 属性 列表 上 ， 然 后 比 
较 这 些 电 影 名 称 一 年 份 对 完成 。 口 





2.5.3 键 约束 

除了 引用 完整 性 约束 外 ， 还 可 以 用 同样 的 方法 描述 其 他 类 型 的 约束 。 下 面 将 看 到 当 关 系 
的 一 个 属性 或 者 一 个 属性 集合 组 成 键 时 ， 这 种 约束 是 如 何 用 代数 来 表达 。 

例 2.23 假设 属性 name 是 关系 MovieStar 的 键 : 


MovieStar (name, address, gender, birthdate) 


这 意味 着 没有 任何 两 个 元 组 在 分 量 name 上 具有 相同 的 值 。 该 约束 蕴涵 着 几 个 事实 ， 其 中 之 一 
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是 : 如 果 关 系 的 某 两 个 元 组 在 属性 name 上 具有 相同 的 值 ， 则 它们 在 属性 分 量 address 上 也 必定 
有 相同 的 值 。 实 际 上 ， 注 意 到 如 果 某 “两 个 ”元 组 在 键 name 上 值 相 同 ， 则 这 “两 个 ”元 组 必 
定 是 同一 个 元 组 ， 因 此 它们 在 所 有 的 属性 分 量 上 必 具 有 相同 的 值 。 

其 思路 是 ， 如 果 在 关系 MovieStar 上 构造 所 有 的 元 组 对 (hh, )， 那 么 一 定 不 存在 这 样 的 
元 组 对 : 它们 在 name 分 量 上 值 相同 ， 但 是 却 在 address 分 量 上 有 具有 不 同 的 值 。 为 了 构造 这 样 的 
元 组 对 ， 可 以 先 做 第 卡 儿 乘积 ， 然 后 遍历 每 个 新 元 组 ， 选 出 其 中 name 值 相同 而 address 值 不 同 
的 元 组 。 然 后 断定 选 出 的 结果 为 如 。 

首先 ， 既 然 要 做 关系 MovieSstar 与 它 自 己 的 笛 卡 儿 乘积 ， 至 少 需要 对 其 中 的 一 个 副本 进行 
重 命名 ， 以 使 得 结果 关系 属性 名 唯一 。 为 了 简洁 起 见 ， 使 用 MS1 和 MS2 作 为 关系 MovieStar 的 
新 名 字 ， 于 是 可 以 将 代数 约束 表述 为 ， 

OMS1 name =MS27anieAND MS1.address# MS2.address(MS1 x MS2) = 


在 上 面 的 表达 式 中 ， 乘 积 MS1 x MS2 中 的 MS1 是 如 下 重 命名 的 缩写 : 
PMS1(name, address, gender, birthday)( MOV ie Sb a r) 


MS2 也 可 以 按 同样 的 方式 重 命名 。 加 


2.5.4 其 他 约束 举例 

除 上 面 提 到 的 约束 外 ， 还 存在 很 多 其 他 的 约束 都 可 以 用 关系 代数 描述 。 这 些 约束 在 限制 
数据 库 中 的 内 容 方面 有 很 大 作用 。 关 系 模 型 中 的 约束 是 一 个 很 大 的 家 族 ， 这 些 约束 涉及 上 下 
文 的 赋值 是 否 被 允许 。 比 如 ， 每 个 属性 都 有 一 个 类 型 约束 ， 使 得 该 属性 的 每 个 取 值 都 只 能 是 
该 类 型 。 通 常 来 讲 ， 约 束 是 很 直接 的 ， 例 如 “只 能 取 整 数 ” 或 者 “字符 串 长 度 最 大 为 30"。 在 
其 他 一 些 情 况 下 ， 可 能 会 出 现 更 加 复杂 的 属性 值 限 制 ， 比 如 属性 的 值 被 限制 为 只 能 在 一 个 枚 
举 集合 里 面 取 值 。 这 里 给 出 两 个 例子 , 第 一 个 是 属性 上 的 域 约 束 (domain constraint) ， 第 二 
个 则 是 一 个 相对 比较 复杂 的 约束 。 

例 2.24 ”假设 关系 MovieStar 中 gender 属 性 的 合法 值 只 有 “F” 和 “M' 。 于 是 这 个 约束 就 
可 以 表示 为 : 





Opender* “FAND gender¥ 'M’ (Moviestar) = 


意思 是 说 ，MovieStar 的 元 组 中 ，gender 分 量 既 不 等 于 “F” 也 不 等 于 “M” 的 结果 是 空 集 。 口 

例 2.25 ”假设 要 求 一 个 电影 公司 的 经 理 至 少 拥有 $10 000 000 的 资产 。 这 个 约束 可 以 用 如 
下 代数 表达 。 在 描述 代数 约束 之 前 ， 首 先 利 用 Studio 中 的 presC# 和 MovieExec 中 的 cert# 相 等 
为 条 件 ， 对 下 面 两 个 关系 做 6 连接 


MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) 


这 个 连接 将 把 某 个 制 片 人 元 组 与 以 该 制 片 人 为 经 理 的 电影 公司 的 相应 元 组 合并 为 一 个 元 
组 。 如 果 根 据 约 束 要 求 在 合并 起 来 后 的 元 组 上 选择 那些 净 资 产值 小 于 1000 万 的 元 组 ， 其 结果 
应 该 是 空 集 。 因 此 ， 该 约束 可 以 表示 为 : 

Onermorih<10 000 000( St Udi0) pa presc#=cerm (MoVieExec)= 

另外 一 种 表达 该 约束 的 方法 是 比较 电影 公司 经 理 证 书号 集合 与 净 资 产值 大 于 等 于 1000 万 

的 制 片 人 的 证 书号 集 ， 前 者 应 该 是 后 者 的 子 集 。 该 约束 表达 如 下 : : 


Moresc#( Studi 0) Es eer OnerWorth> 10 000 ooo(MoVi eExec)) 口 
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2.5.5 习题 
习题 2.5.1 对 习题 2.3.1 中 的 关系 表达 如 下 约束 要 求 ， 习 题 2.3.1 的 关系 是 : 


Product (maker, model, type) 

PC(model, speed, ram, hd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


尔 的 约束 表达 可 以 用 集合 包含 的 方式 或 者 空 集 等 价 的 方式 。 对 于 习题 2.4.1 的 数据 ， 指 出 哪些 违背 了 
这 里 的 约束 。 

a) 处 理 速度 低 于 2.0 的 PC 机 ， 出 售 价格 不 能 超过 $500。 

b) 一 个 屏幕 超过 15.4 英 寸 的 笔记 本 电脑 至 少 应 有 100G 硬 盘 或 者 出 售 价格 不 超过 $1000。 

!c) 生产 PC 的 厂家 不 能 同时 生产 笔记 本 电脑 。 
!1d) 生产 PC 的 厂家 至 少 生产 了 一 种 笔记 本 电脑 ， 其 最 高 主 频 不 低 于 其 生产 的 PC。 

!e) 如 果 一 种 笔记 本 电脑 的 内 存 容量 超过 PC， 那 么 其 价格 一 定 也 高 于 PC。 

习题 2.5.2 用 关系 代数 表达 下 列 约束 ， 这 些 约束 是 基于 习题 2.3.2 的 关系 。 
Classes(class, type, country, numGuns, bore, displacement) 
Ships (name, class, launched) 


Battles (name, date) 
Outcomes(ship, battle, result) 


可 以 用 两 种 风格 来 表达 你 的 约束 ， 即 集合 包含 或 者 空 集 等 价 方式 。 对 于 习题 2.4.3 的 数据 ， 指 出 哪些 
违背 了 这 里 的 约束 。 

a) 不 存在 火炮 口径 超过 16 英 寸 的 舰 船 类 别 。 

b) 如 果 一 个 类 别 中 的 舰 船 拥有 的 火炮 超过 9 门 ， 那 么 火炮 的 口径 一 定 不 超过 14 英 寸 。 

!c) 一 个 类 别 所 拥有 的 舰 船 没有 超过 2 艘 的 。 

!d) 没有 既 拥 有 战列舰 (battleship) 又 拥有 巡 详 舰 (battlecruiser) 的 国家 。 

!le) 在 有 火炮 少 于 9 门 的 舰 船 被 击 沉 的 战役 中 ， 不 会 有 火炮 超过 9 门 的 舰 船 参战 。 

! 习 题 2.5.3 假设 R, 5 是 两 个 关系 。C 是 引用 完整 性 约束 只 要 R 的 属性 41, A2,…, An 上 具有 特定 的 值 vi1, vz,…， 
vw， 那么 在 关系 中 一 定 有 元 组 在 相应 的 属性 BI, B;, …, B, 上 有 值 yi, v2,…, ww。 用 关系 代数 来 描述 这 个 
约束 。 

! 习 题 2.5.4 ”表达 约束 的 另 一 种 代数 形式 是 El1 = E2， 其 中 E1 和 E2 都 是 关系 代数 表达 式 。 请 问 ， 这 种 形式 
的 约束 是 否 可 以 比 本 节 所 讨论 的 两 种 代数 形式 表达 更 多 的 语义 ? 


2.6 小 结 


* 数据 模型 (Data Model); 数据 模型 一 般 用 于 描述 数据 库 中 数据 的 结构 ,也 包含 施加 于 数 
据 上 的 各 种 约束 。 通 常 ， 数 据 模型 提供 了 一 套 规则 描述 数据 上 的 各 种 操作 ， 比 如 数据 查 
询 和 数据 修改 。 

。 关 系 模 型 (Relational Model) : 关系 是 表示 信息 的 表 。 属 性 位 于 每 列 的 头 部 ， 每 个 属性 
都 有 相应 的 域 或 者 数据 类 型 。 行 被 称 为 元 组 ， 每 一 行 都 有 一 个 分 量 与 关系 属性 对 应 。 

“模式 《Schema) : 关系 名 和 该 关系 所 有 属性 的 结合 。 多 个 关系 模式 形成 一 个 数据 库 模式 。 
一 个 关系 或 多 个 关系 的 特定 数据 叫做 关系 模式 或 数据 库 模 式 的 实例 。 

“ 键 (Key): 关系 上 有 一 类 很 重要 的 约束 ， 即 由 关系 的 一 个 属性 或 者 一 个 属性 集 组 成 的 
键 。 没 有 任何 两 个 元 组 在 组 成 键 的 所 有 属性 上 具有 相同 的 值 ， 虽 然 它 们 有 可 能 在 组 成 键 


的 部 分 属性 上 取 值 相同 。 
。 半 结构 化 数据 模型 (Semistructured Data Model) : 在 这 种 数据 模型 中 ， 数 据 以 树 或 者 图 
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的 形式 进行 组 织 。XML 是 半 结 构 化 数据 模型 中 的 一 个 重要 实例 。 

*。SQL: SQL 是 关系 数据 库 系统 的 标准 查询 语言 。 最 新 的 标准 是 SQL-99。 有 目前 市 面 上 的 商 
用 数据 库 并 没有 完整 的 实现 该 标准 ， 而 只 是 实现 了 其 中 的 一 部 分 。 

。 数 据 定 义 (Data Definition) : SQL 提供 了 定义 数据 库 模 式 中 元 素 的 语句 ， 可 以 利用 
CREATE TABLE 语 句 来 声明 一 个 存储 的 关系 ( 称 作 表 ) 模式 ， 定 义 其 包含 的 属性 集 、 各 
属性 的 数据 类 型 、 默 认 值 和 键 等 。 

。 模 式 修改 (Altering Schema) :可 以 利用 ALTER 语 名 来 修改 数据 库 的 一 部 分 模式 。 这 些 修 
改 包 括 : 在 关系 模式 中 增加 或 者 删除 属性 ， 改 变 与 某 个 属性 相关 联 的 默认 值 等 。 当 然 ， 
也 可 以 利用 DROP 语 句 将 整个 关系 或 者 其 他 模式 元 素 删除 。 

。 关 系 代 数 (Relational Algebra) : 代数 在 关系 模型 的 大 多 数 查询 语言 中 都 有 所 体现 。 它 
的 基本 操作 有 并 、 交 、 差 、 选 择 、 投 影 、 笛 卡 儿 积 、 自 然 连 接 、6 连 接 及 重 命名 等 。 

“选择 和 投影 (Selection and Projection) : 选择 操作 得 到 的 结果 是 关系 中 所 有 满足 选择 条 
件 的 元 组 。 投 影 操 作 从 关系 中 去 掉 不 感 兴趣 的 列 ， 剩 下 的 输出 ， 形 成 最 终结 果 。 

。 连 接 (Join): 通过 比较 两 个 关系 的 每 一 对 元 组 来 进行 连接 操作 。 在 自然 连接 当中 ， 把 
那些 在 两 个 关系 的 共有 属性 上 值 相 等 的 元 组 接合 起 来 。 在 6 连接 中 ， 则 是 连接 来 自 两 个 
关系 的 一 对 满足 6 连接 指定 的 选择 条 件 的 元 组 。 

。 关 系 代数 中 的 约束 (Constraint in Relational Algebra) ; 许多 常见 的 约束 可 以 用 某 个 关系 
代数 表达 式 被 另外 一 个 所 包含 的 形式 表达 ， 或 者 用 某 个 关系 代数 表达 式 等 于 空 集 的 等 价 
形式 表达 。 
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第 3 章 关系 数据 库 设 计 理 论 


人 们 可 以 采用 多 种 方法 为 一 个 应 用 设计 关系 数据 库 模 式 。 第 4 章 将 展示 一 些 用 于 描述 数据 
结构 的 高 层次 符号 ， 以 及 将 这 些 高 层次 设计 转换 成 为 关系 的 方法 。 也 可 以 对 数据 库 进行 需求 
分 析 进 而 直接 定义 关系 ， 而 不 必 经 过 一 些 高 层次 的 中 间 步 又。 无 论 采 用 哪 种 方式 ， 初 始 的 关 
系 模 式 通常 都 需要 改进 ， 尤 其 在 消除 元 余 方 面 。 一 般 来 说 ， 这 些 问 题 是 由 于 模式 试图 将 过 多 
的 内 容 合 并 到 一 个 关系 中 而 造成 的 。 

幸运 的 是 ， 关 系数 据 库 有 一 个 成 熟 的 理论 一 一 依赖 (dependency) 。 依 赖 理论 涉及 如 何 构建 
一 个 良好 的 关系 数据 库 模式 ， 以 及 当 一 个 模式 存在 缺陷 时 应 如 何 改进 。 本 章 中 ， 首 先 指出 在 一 
些 关系 模式 中 由 于 存在 某 种 依赖 而 导致 的 问题 ， 并 使 用 “异常 ”(anomaly) 来 指 代 这 些 问题 。 

讨论 首先 从 “函数 依赖 ”(functional dependency) 开始 ， 它 是 关系 中 “ 键 ” 概 念 的 泛 化 。 
然后 ， 使 用 函数 依赖 这 一 概念 来 定义 关系 模式 的 规范 形式 。 这 个 称 为 “规范 化 ” 
(normalization) 的 理论 的 影响 在 于 ， 可 以 将 关系 分 解 为 两 个 或 多 个 关系 以 消除 异常 。 接 下 来 
介绍 “多 值 依 赖 ”(multivalued dependency) ， 它 直观 地 表示 了 一 个 条 件 : 关系 的 一 个 或 多 个 
属性 独立 于 其 他 若干 个 属性 。 这 些 依赖 也 可 以 导致 关系 的 规范 构造 和 分 解 ， 以 消除 元 余 。 


3.1 函数 依赖 


关系 的 设计 理论 使 人 们 可 以 根据 少数 简单 原则 来 认真 检验 一 个 设计 并 做 出 改进 。 这 一 理 
论 首 先 能 够 规定 作用 在 关系 上 的 约束 。 最 常见 的 约束 是 “函数 依赖 "， 它 泛 化 了 关系 中 “ 键 ” 
的 概念 (2.5.3 节 介绍 过 )。 本 章 随后 介绍 如 何 使 用 关系 设计 理论 给 予 的 一 些 简 单 工具 ， 通 过 关 
系 的 “分 解 ”(decomposition) 过 程 来 改进 设计 ， 即 用 若干 关系 替代 原 关 系 ， 这 些 关 系 的 属性 
集合 包含 了 原 关 系 的 所 有 属性 。 


3.1.1 函数 依赖 的 定义 
关系 R 上 的 函数 依赖 〈functional dependency，FD) 是 指 “ 如 果 R 的 两 个 元 组 在 属性 Al, 4;， 


…, 4 上 一 致 ( 即 它们 对 应 于 这 些 属性 的 分 量 值 都 相等 )， 4 as 
那么 它们 必定 在 其 他 属性 BI, B;,…, 8 上 也 一 致 " 。 该 国 数 ， | 
依赖 形式 地 记 为 41 4 … 4 一 B1B,，… Bm， 并 称 为 “Ai， ， 


42, …,4, 国 数 决 定 Bi,B2, …,B。 1 1 i 

图 3-1 给 出 了 这 个 FD 表示 的 关于 关系 R 中 任意 两 爷 | ' ， | 
组 :和 和 u 的 关系 的 解释 。 但 是 ， 属 性 集 4 和 8 可 以 任意 出 现 ， ee 
并 不 要 求 4 和 B 连 续 出 现 或 4 在 8 之 前 。 在 此 一 致 ” ”在 此 也 一 至 

如 果 确 定 关系 R 的 每 个 实例 都 能 使 一 个 给 定 的 FD 为 真 ， PE ， 
那么 称 R 满 足 (satisfy) 函数 依赖 。 这 是 在 R 上 声明 了 一 个 约 。 ”下 组 上 殉 数 作业 的 影响 
束 ， 而 不 是 仅仅 针对 R 的 一 个 特殊 实例 。 

通常 ，FD 的 右边 可 能 是 单个 属性 。 事 实 上 ， 一 个 函数 依赖 41 4 …4， 一 Bi B,…B 等 价 于 
一 组 FD: 
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Al 4 下 Bl 
Al 4 lg A, = 已: 


Al 42 i A ES Ba 


me | veor [ fengih | genre | sudioName | starNome 
Star Wars SciFi Fox Carrie Fisher 
Star Wars SciFi Fox Mark Hamill 
Star Wars SciFi Fox Harrison Ford 


Gone With the Wind drama | MGM Vivien Leigh 
Wayne’s World comedy | Paramount Dana Carvey 
Wayne’s World comedy | Paramount Mike Meyers 





图 3-2 关系 Moviesl (tit1le，year，1ength，genre，studioName，starName) 的 实例 
例 3.1 考虑 关系 


Moviesi(title, year, length, genre, studioName, starName ) 
该 关系 的 一 个 实例 在 图 3-2 中 给 出 。 和 Movies 关 系 相 比 ， 它 具有 更 多 的 属性 ， 因 此 记 为 
Movies1。 请 注意 ， 这 个 关系 试图 “做 的 太 多 ”， 它 包含 的 信息 在 本 书 的 数据 库 模 式 例子 中 
是 分 别 属 于 三 个 不 同 的 关系 : Movies、Studio 和 StarsIn。 正 如 将 要 讨论 的 ，Movies1 
的 模式 设计 并 不 好 。 为 了 找到 设计 中 的 错误 ， 首 先 需 要 确定 该 关系 中 包含 的 函数 依赖 。 可 以 
发 现 该 关系 有 如 下 FD: 

title year — length genre studioName 

非 正 式 地 说 ， 这 个 FD 的 含义 是 ， 若 两 个 元 组 在 分 量 tit1e 和 year 上 具有 相同 的 值 ， 则 这 
两 个 元 组 在 分 量 length，genre 和 studioName 上 的 值 也 分 别 相同 。 这 个 断言 是 有 意义 的 ， 因 
为 人 们 相信 在 同一 年 中 不 可 能 发 行 两 部 同名 的 电影 (虽然 不 同年 份 发 行 的 电影 可 能 同名 )。 这 
一 点 在 例 2.1 中 已 经 讨论 过 。 因 此 ， 和 希望 给 定 tit1e 和 year， 可 以 唯一 确定 一 部 电影 ， 进 而 可 
以 唯一 确定 这 部 电影 的 长 度 、 类 型 和 电影 公司 。 

另 一 方面 ， 可 以 观察 到 ， 下 面 的 式 子 

title year — starName 
是 错误 的 ， 它 不 是 一 个 函数 依赖 。 给 定 一 部 电影 ， 完 全 可 能 在 数据 库 中 找到 多 个 影星 。 即 使 
只 为 Star Wars 和 Wayne’s World 各 列 出 一 位 影星 (就 像 只 列 出 参 演 Gone With the Wind 的 众多 
影星 中 的 一 位 )， 对 于 关系 Movies1 来 说 这 个 FD 也 不 会 变 成 正确 的 。 因 为 FD 的 约束 是 针对 关系 
的 所 有 可 能 的 实例 ， 而 不 是 针对 某 一 个 实例 。 事 实 上 ,一 部 电影 可 以 有 多 位 影星 参 演 ， 这 就 
排除 了 title 和 year 函 数 决 定 StarName 的 可 能 性 。 口 


3.1.2 关系 的 键 

如 果 下 列 条 件 满足 ， 就 认为 一 个 或 多 个 属性 集 {A1, 42,…, 4,} 是 关系 R 的 键 。 

1, 这些 属性 函数 决定 关系 的 所 有 其 他 属性 。 也 可 以 说 , 关系 R 不 可 能 存在 两 个 不 同 的 元 组 ， 
它们 具有 相同 的 A1, A2, …, 4, 值 。 

2. 在 { 41, 42, …, 4 } 的 真子 集中 ， 没 有 一 个 能 函数 决定 R 的 所 有 其 他 属性 。 也 就 是 说 ， 键 
必须 是 最 小 的 (minimal ) 。 

当 键 只 包括 一 个 单独 的 属性 4 时 ， 称 4 (而 不 是 {4}) 是 键 。 

例 3.2 ”图 3-2 中 关系 Movies1l 的 键 为 {title，year，starName}。 首 先 要 证 明 它 们 函数 决 
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定 了 所 有 其 他 属性 。 也 就 是 ， 假 设 有 两 个 元 组 在 属性 tit1e，year 和 starName 上 的 值 相同 。 
因为 元 组 在 tit1e 和 year 上 相同 ， 所 以 相应 的 其 他 属性 如 length、genre 和 studioName 上 的 值 
也 应 该 相同 ， 这 一 点 同 例 3.1 中 讨论 的 一 样 。 因 此 ， 不 同 的 元 组 在 title、year 和 starName 上 
的 取 值 应 不 完全 相同 ， 否则 ， 它 们 应 是 指 同一 个 元 组 ，。 

下 面 将 讨论 的 是 {title，year， starName} 的 任 一 真子 集 都 不 能 函数 决定 所 有 其 他 的 属 
性 。 首 先 , .属性 tit1e 和 year 不 能 确定 starName ， 这 是 因为 有 许多 电影 是 由 多 个 影星 参 演 。 
因此 ，{title，year} 不 是 键 。 

{year，starName} 也 不 是 键 ， 因 为 在 同一 年 中 一 个 影星 可 以 演 两 部 电影 。 因 此 


year starName — title 
不 是 FD。 同 样 ，{title， starName} 也 不 是 键 ， 理 由 是 在 不 同 的 年 份 中 ， 可 能 有 两 部 同名 且 
由 同一 个 影星 演出 的 电影 9。 口 
有 了 时 一 个 关系 可 能 会 有 多 个 键 。 如 果 是 这 样 的 话 ， 通 常 就 要 指定 其 中 一 个 为 主键 
(primary key)。 在 商业 数据 库 系统 中 ， 对 主键 的 选择 会 影响 某 些 实现 问题 ， 例 如 怎样 在 磁盘 
中 存储 关系 。 然 而 ， 函 数 依赖 理论 并 未 给 主键 以 特殊 的 角色 。 





函数 依赖 中 的 ”函数 ”是 什么 意思 9? 


41 A … 4 一 B 被 称 为 “函数 ”依赖 是 因为 在 这 条 规则 中 ， 有 一 个 函数 对 于 一 个 值 的 
列表 (列表 中 每 个 值 对 应 A1, 4z，…, 4 中 的 一 个 属性 ) ， 都 产生 一 个 唯一 的 好 值 〈 或 根本 没有 
值 )。 例 如 ， 在 关系 Movies1 中 ， 可 以 想象 存在 一 个 函数 ， 对 于 字符 串 ”Star Wars” 和 整 


数 1977， 它 确定 了 一 个 唯一 的 1ength 值 ， 即 124， 该 值 出 现在 关系 Movies1 中 。 但 这 个 函数 
与 数学 中 常见 的 函数 不 同 ， 因 为 这 条 规则 无 法 用 来 计算 。 也 就 是 说 ， 不 能 根据 字符 哩 
“Star Wars” 和 整数 1977 计 算出 正确 的 1ength 值 ， 它 只 有 通过 对 关系 的 观察 才能 得 出 结果 。 
查找 具有 给 定 title 和 year 属 性 值 的 元 组 ， 和 看 这 个 元 组 包含 什么 样 的 length 值 。 





3.1.3 超 键 

一 个 包含 键 的 属性 集 就 叫做 超 键 (superkey) ， 它 是 “ 键 的 超 集 ”的 简写 。 因 此 ， 每 个 键 
都 是 超 键 。 然 而 ， 某 些 超 键 不 是 (最 小 化 的 ) 键 。 注 意 ， 每 个 超 键 都 满足 键 的 第 一 个 条 件 ， 
它 函 数 决定 了 关系 中 所 有 其 他 属性 。 但 超 键 不 需要 满足 第 二 个 条 件 : 最 小 化 。 

例 3.3 在 例 3.2 给 出 的 关系 中 ， 有 许多 超 键 。 除了 键 {title，year，starName} 是 超 键 外 ， 
还 有 任何 含有 这 个 集合 的 超 集 ， 如 


{title, year, starName, length, studioName} 
也 是 超 键 。 口 


其 他 的 键 术语 
在 某 些 书籍 和 文献 中 ， 对 键 有 不 同 的 称呼 。 在 本 书 中 所 谓 的 “ 超 键 ”有 时 被 称 为 “ 键 ， 





也 就 是 键 的 属性 集合 只 有 函数 决定 所 有 其 他 属性 的 要 求 ， 而 没有 最 小 化 限制 。 而 对 最 小 化 
的 键 ， 也 就 是 本 书 中 的 “ 键 ”， 则 被 称 为 “候选 键 。 





中 在 本 书 早期 的 版 本 中 ， 我 们 断言 没有 已 知 的 例子 满足 这 一 情况 ， 一 些 读者 指出 了 我 们 的 错误 。 发 现在 同一 
电影 的 两 个 不 同 版 本 中 都 参 演 的 影星 是 一 个 有 趣 的 挑战 。 
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3.1.4 习题 
习题 3.1.1 考虑 一 个 关于 美国 公民 信息 的 关系 ， 这 个 关系 的 属性 有 : 姓名 、 社 会 保险 号 、 街 道 地 址 、 城 
市 、 州 、 邮 编 、 地 区 代码 和 电话 号 码 (7 位 数字 )。 这 个 关系 有 哪些 FD? 关系 的 键 是 什么 ”为 了 回答 
这 些 问题 ， 就 要 知道 分 配 这 些 数 据 的 方法 是 什么 。 比 如 ， 一 个 地 区 代码 是 否 可 以 用 于 两 个 州 ? 一 个 邮 
编 能 否 跨越 两 个 地 区 代码 ? 两 个 人 可 否 有 相同 的 社会 保险 号 ? 他 们 能 有 相同 的 地 址 和 电话 号 码 吗 ? 
习题 3.1.2 ”考虑 一 个 表示 密封 容器 中 的 分 子 位置 的 关系 ， 属 性 有 分 子 的 ID ， 分 子 位 置 的 rz、y、z 坐 标 ， 
以 及 在 zx、y、z 方 向 上 的 速率 。 你 认为 这 个 关系 上 有 哪些 FD? 键 是 什么 ? 
! 习题 3.1.3 假设 R 是 含有 属性 41, A3, …, A 的 关系 。 如 果 给 出 下 列 条 件 ， 指 出 R 有 多 少 超 键 (用 n 的 函数 
表示 )。 
a) 4 是 仅 有 的 键 。 
b) 仅 4, 和 4: 是 键 。 
c) 仅 {4 A2} 和 {Ah3, A4} 是 键 。 
d) 仅 {41, A2} 和 {A1, A3} 是 键 。 


3.2 函数 依赖 的 规则 


在 这 一 节 将 要 学 习 如 何 推导 (reason) FD。 也 就 是 ， 假 设 已 经 知道 关系 满足 一 些 FD 集 合 。 
通常 从 这 些 已 知 FD 中 还 能 推导 出 这 个 关系 上 必定 存在 的 其 他 FED。 发 现 其 他 FD 的 能 力 ， 对 于 
3.3 节 中 讨论 怎样 设计 一 个 好 的 关系 模式 很 有 必要 。 


3.2.1 函数 依赖 的 推导 

首先 通过 一 个 启发 性 的 例子 来 说 明 如 何 根 据 已 知 的 FD 推导 出 其 他 FD。 

例 3.4 如果 关 系 R(A4，B，OC) 满足 FD: 4 一 B 和 B 一 C， 那 么 就 可 以 推断 出 R 也 满足 FD: 
4 一 C。 这 是 怎么 得 到 的 呢 ? 为 了 证 明 4 一 C， 必 须要 考虑 R 中 4 分 量 值 相同 的 两 个 元 组 ， 证 
明 它 们 的 C 分 量 值 也 相同 。 

假设 两 个 在 4 上 取 值 相同 的 元 组 为 (a, bi, c1) 和 (a, bs, c2)。 因 为 R 满 足 4 一 B， 又 已 知 两 个 元 
组 在 4A 上 的 值 相 同 ， 所 以 它们 在 8 上 的 值 也 相同 ， 即 b=4b，， 这 两 个 元 组 实际 上 就 是 (a, b, c1) 和 
(a, b, cz)， 其 中 b 既 是 bl 也 是 b,。 同 样 ， 因 为 R 满 足 B 一 C， 且 这 两 个 元 组 在 8 上 的 值 相同 ， 所 
以 它们 在 C 上 的 值 也 相同 ， 即 ci=cz。 由 此 证 明了 R 中 只 要 两 个 元 组 在 4 上 取 值 相同 ， 则 它们 在 
C 上 取 值 也 相同 ， 即 存在 ED: A 一 C。 口 

在 不 改变 关系 合法 实例 集合 的 前 提 下 ，FD 可 以 有 多 种 不 同 的 描述 方法 : 

*， 对 于 FD 集合 S 和 7 而 言 ， 若 关系 实例 集合 满足 5 与 其 满足 7 的 情况 完全 一 样 ， 就 认为 S 和 T 

等 价 (equivalent)。 

。 更 普遍 的 情况 是 ， 若 满足 7 中 所 有 FD 的 每 个 关系 实例 也 满足 8 中 的 所 有 FD， 则 认为 5 是 从 

7 中 推断 (follow) 而 来 。 

注意 ， 当 且 仅 当 5 是 从 7 中 推断 而 来 ， 并 且 7 也 是 从 5 中 推断 而 来 时 ， 5 与 7 才 是 等 价 的 ， 

这 一 节 中 将 给 出 关于 FD 的 很 多 有 用 的 规则 。 这 些 规则 保证 了 可 以 用 一 个 FD 集合 替换 另 一 
个 等 价 的 FD 集合 ,或 者 可 以 添加 从 原 有 FD 集合 中 推断 出 的 新 的 FD 集合 。 例 如 ， 例 3.4 中 给 出 
的 传递 规则 (transitive rule) 可 以 用 来 跟踪 FD 链 。 还 将 给 出 一 个 算法 来 判断 一 个 FD 是 否 可 以 
由 一 个 或 多 个 FD 推断 出 来 。 


3.2.2 分 解 /结合 规则 
回顾 3.1.1 节 中 讨论 的 内 容 ，FD: 
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A A Ais — BI 已 > rs Bi 
等 价 于 下 列 FD 的 集合 : 
Ar A2 "°° An — Bi, Ar Mi = Ar=— B;, i A 


也 就 是 说 ， 可 以 把 右边 的 属性 分 解 开 ， 使 得 每 个 FD 的 右边 只 有 一 个 属性 。 同 样 ， 也 可 以 把 具 
有 相同 左边 的 多 个 FD 组 合 起 来 ， 形 成 一 个 左边 相同 而 右边 为 原来 右边 所 有 属性 集合 的 FD。 不 
论 是 哪 种 情况 ， 此 时 FD 的 新 形式 与 原来 的 形式 等 价 。 这 种 等 价 可 以 有 两 种 使 用 方法 ，。 
。 可 以 用 一 个 FD 的 集合 A1 A2…A 一 B; (i = 1,2,…, m) 替换 FD 4 A2…A, 一 BB,…Bn。 
这 种 转化 称 为 分 解 规 则 (splitting rule)。 
。 可 以 用 一 个 FD Al A;… A 一 B11B;… Bn 替换 FD 和 集合 Ai A2… 4 一 B (i= 1,2,…,m)。 
这 种 转化 称 为 组 会 规则 (combining rule)。 
例 3.5 在 例 3.1 中 证 明了 FD 集合 
title year 一 length 


title year 一 genre 
title year 一 studioName 


与 单个 FD 

title year 一 length genre studioName 
等 价 。 口 

分 解 和 合并 规则 显然 是 正确 的 。 假 设 两 个 元 组 在 A1, 42, …, 4, 上 一 致 。 对 于 单个 FD， 可 
以 断言 “这 两 个 元 组 在 B1, B;, …, Bm 上 也 都 一 致 "。 而 对 于 各 个 单独 的 FPD， 可 以 断言 “这 两 个 
元 组 在 B1 上 一 致 ， 在 Bs 上 一 致 ，…， 在 Bm 上 一 致 "。 这 两 句 话 的 含义 完全 相同 。 

人 们 可 能 推 想 ,分 解 规则 也 可 以 像 应 用 在 FD 右边 一 样 ， 也 在 其 左边 应 用 。 可 是 ， 没 有 对 
左边 应 用 的 分 解 规 则 。 下 面 是 一 个 说 明 左 边 为 什么 不 能 使 用 分 解 规则 的 例子 。 

例 3.6 考虑 例 3.1 中 关系 Movies1 的 一 个 FD: 

title year 一 length 
如 果 要 将 它 的 左边 分 解 为 . 

title — length 

year 一 length 
那么 就 得 到 了 两 个 错误 的 FPD。 也 就 是 说 ，tit1e 不 能 函数 决定 length， 原 因 是 可 以 存在 两 部 
同名 (例如 ，King Kong) 但 片 长 不 同 的 电影 。 同 样 ，year 也 不 能 函数 决定 length， 因 为 在 
任 一 年 份 都 可 以 存在 不 同 片 长 的 电影 。 口 


3.2.3 平凡 函数 依赖 - 

如 果 关 系 上 的 一 个 约束 对 所 有 关系 实例 都 成 立 ， 且 与 其 他 约束 无 关 ， 则 称 其 为 平凡 的 
(trivial) 。 当 给 定 FD 时 ， 能 够 很 容易 地 判断 一 个 ED 是 否 为 平凡 的 。 平 凡 FD 是 这 样 一 类 FD : 
A1h2…Ahn 一 B1B，… Bn， 其 中 {BiB ,Bo {41, 4 4。 也 就 是 说 ， 平 凡 FD 的 右边 是 
左边 的 子 集 。 例 如 

title year — title 
与 title 一 title 一 样 ， 都 是 平凡 FD。 

每 个 关系 中 都 会 存在 平凡 FD， 因 为 平凡 FD 是 说 “两 个 元 组 在 属性 4A1, A;, …, 4, 上 取 值 相 
同 ， 则 它们 在 这 4 个 属性 的 任 一 个 子 集 上 取 值 都 相同 ”"。 因 此 ， 不 需 知道 关系 中 的 FD 就 可 以 假 
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设 出 任意 一 个 平凡 FD。 
有 一 种 中 间 状 态 ，FD 右 边 的 一 些 〈 而 不 是 全 部 ) 属性 也 在 左边 出 现 。 这 个 ED 不 是 平凡 的 ， 
但 可 以 通过 从 右边 除去 那些 在 左边 出 现 的 属性 来 对 其 进行 简化 。 即 : 
。FD 4 4 … A 一 Bi DB … Bn 等 价 于 
A ds MC Cr "Ch 


这 里 的 C 是 集合 8 中 而 不 是 集合 4 中 的 属性 。 
这 个 规则 被 称 为 平凡 依赖 规则 (trivial-dependency rule) ， 用 图 3-3 了 予以 说 明 。 


3.2.4 计算 属性 的 闭 包 

在 讲述 其 他 规则 前 ， 先 介绍 一 个 基本 的 原则 ， 所 有 规则 都 是 从 它 推断 出 来 。 假 设 {4,, 4;， 
…, 4A} 是 属性 集合 ，5 是 FD 的 集合 。 则 5 集合 下 的 属性 集合 {41, 4>，…, 4 的 闲 包 (closure) 是 
满足 下 面条 件 的 属性 集合 8， 即 使 得 每 一 个 满足 5 中 所 有 FD 的 关系 ， 也 同样 满足 A1 4 … A 一 
8。 也 就 是 说 ，A! 4，… A, 一 B 能 由 5 中 的 FD 推断 出 来 。 属 性 集合 {41, A2, …, 4 话 的 闭 包 记 为 
{41, A2，…， Aw}+。A1, A3，,…, hn 总 是 在 {41, 43,…, An}* 中 ， 因 为 FD A1 Ah2… A 一 Ai (i= 1,2, 
…,1) 是 平凡 的 。 

图 3-4 给 出 了 计算 闭 包 的 过 程 。 从 一 个 给 定 的 属性 集合 出 发 ， 重 复 地 扩展 这 个 集合 ， 只 要 
茶 个 FD 左边 的 属性 全 部 包含 在 这 个 集合 中 ， 就 把 此 FD 右边 的 属性 也 包含 进去 。 反 复 使 用 这 个 
方法 ， 直 到 不 再 产生 新 的 属性 为 止 。 最 后 的 结果 集合 就 是 给 定 属性 集合 的 闭 包 。 下 面 给 出 计 
算 属 性 集合 {41, 42, …, 4A} 关于 某 已 知 FD 集合 的 闭 包 的 详细 算法 ，。 





如 果 : 和 4 在 则 它们 一 定 
4 上 一 致 ”也 在 38 上 一 臻 
因此 它们 必定 在 C 上 一 臻 


图 3-3 平 几 依 赖 规则 图 3-4 ”计算 属性 集合 的 闭 包 


属性 集合 的 闭 包 

输入 ， 属 性 集合 {A1, As,…, An}，FD 的 集合 5。 

输出 ， 闭 包 {A1, A2,…, An}*。 

1. 如 果 必 要 ， 分 解 S 中 的 FD， 使 每 个 FD 的 右边 只 有 一 个 属性 ， 

2. 设 X 是 属性 集合 ， 也 就 是 闭 包 。 首 先 ， 将 X 初 始 化 为 {A1, A2,…, Aw}。 

3. 反 复 寻 找 这 样 的 FD，B1B;… Bn 一 C， 使 得 Bi, Bi, …, B 在 X 中 ， 而 C 不 在 X 中 ， 著 找到 ， 
则 把 C 加 入 X， 并 重复 这 个 过 程 。 因 为 集合 X 只 能 增长 ， 而 任何 一 个 关系 模式 中 的 属性 都 是 有 
限 的 ， 所 以 最 终 没有 任何 元 素 能 再 加 入 X 时 ， 本 步 又 结束 。 

4. 当 不 能 再 添加 任何 属性 时 ， 集 合 X 就 是 {A1, A2,…, An}*。 
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例 3.8 ”考虑 含有 属性 4，B，C，D，E 和 F 的 关系 。 假 设 此 关系 包含 FD; 4B 一 C，BC 一 
AD, D 一 E 和 CF 一 B。 那 么 {4，B} 的 闭 包 {4, B}+ 是 什么 ? 

首先 ， 将 BC 一 AD 分 解 为 BC 一 4 和 BC 一 D。 然 后 ， 从 X = {4, B} 出 发 。 首 先 注意 到 FD 
AB 一 C 的 左边 的 属性 都 在 X 中 ， 因 而 可 以 把 该 FD 右边 的 属性 C 加 入 X。 因 此 ， 第 三 步 运行 一 次 
后 的 X 为 {A, B,C}。 

接着 ,注意 到 FD BC 一 4 和 BC 一 D 的 左边 属性 都 在 X 中 ， 所 以 可 向 X 添 加 A 和 D。A 已 经 在 
XX 中， 而 D 不 在 ， 因 此 X 变 为 {4,B, C, D}。 同 样 ， 根 据 FD D 一 E£， 可 把 E 加 入 X 中 ， 于 是 X 变 为 
{4, 8, C, D, E}。 至 此 ，X 无 法 再 扩大 了 。 特 别 要 注意 的 是 ， 不 能 使 用 FD CF 一 B， 因 为 其 左 
边 集 合 中 的 F 不 会 出 现在 X 中 。 因 此 ,， {4, B}+={4, B,C,D,E}。 回 

通过 计算 任 一 属性 集合 的 闭 包 ， 可 以 判断 任 一 给 定 的 FD A 4: … A, 一 B 是 否 可 以 由 FD 集合 
3 推断 。 和 …,An}+。 若 B 在 {A1, 42,…, A4} :中 ， 则 A1A2… 4 一 B 确 
ee ad 车 8B 不 在 {Ai, A ,4n}+ 中 ， Ra 更 一 般 地 ， 

“A = BiB Bnn pe 当 且 仅 当 Bi1, B;,…, Bi 都 在 {A1, A2,…, An}!+ 中 。 

和 考虑 例 3.8 中 的 关系 和 ED 集合 。 假设 要 判断 4B 一 D 是 否 能 从 该 FD 集合 推断 。 首 先 
计算 {4, B}*， 由 上 例 可 知 ， 其 值 为 {4, B, C, D, E}。 因 为 D 是 闭 包 的 一 个 元 素 ， 玫 可 以 认为 4B 
一 D 能 够 从 FD 集合 推断 而 来 。 

男 一 方面 ， 考 虑 FD D 一 A。 为 了 判断 这 个 FD 是 否 能 从 给 定 的 FD 集合 推断 得 来 ， 首 先 计 
算 {D}+。 为 了 计算 这 个 闭 包 ， 令 X={D}+， 接 着 使 用 FD D 一 E 将 E 加 入 X 中 。 但 此 后 陷入 困境 ， 
找 不 到 左边 属性 包含 在 X={D, 如 中 的 FD， 所 以 {D}={1D,. E}。 因 为 4 不 在 {D, E} 中 ， 故 FD D 
一 A 不 能 从 给 定 的 FD 集合 推断 得 来 。 口 


3.2.5 闭 包 算法 为 何 有 效 

在 本 节 中 ， 将 阐明 为 什么 算法 3.7 能 够 正确 判断 一 个 FD 4 4: … 4v 一 B 是 否 能 从 给 定 的 FD 
集合 5S 推断 。 证 明 分 为 两 部 分 : 

1. 必须 证 明 算 法 3.7 没 有 断言 过 多 。 也 就 是 说 ， 如 果 闭 包 测试 断言 41 4;… A 一 B( 即 8B 在 
{41, 42,…, A,} :中 )， 那 么 A14;… A 一 B 在 任何 满足 S 中 FD 集合 的 关系 中 都 成 立 。 

2. 必须 证 明 通 过 闭 包 算法 可 以 找到 所 有 能 够 从 5 推断 出 来 的 FD。 

为 什么 闭 包 算法 只 给 出 正确 的 FD 

这 一 点 可 以 通过 对 算法 第 三 步 中 增长 操作 的 使 用 次 数 进行 归纳 来 证 明 。 第 三 步 是 说 对 X 中 
的 每 个 属性 D，FD 4 4A，… A, 一 D 成 立 。 这 样 ， 每 个 满足 5 中 所 有 FD 集合 的 关系 R 都 满足 Al 42… 
2 =D 

基础 : 最 基础 的 情况 是 没有 进行 任何 计算 。 于 是 D 必 定 是 A1, A2,…, 4 中 一 员 ， 故 4 A2… 
hn 一 D 是 一 个 平 几 FD， 它 在 任何 关系 中 都 成 立 。 

归纳 : 假设 使 用 FD Bi B，… B。 一 D 时 已 将 D 加 入 到 X。 那 么 由 归纳 假设 可 知 R 满 足 A1 A;… 
An 一 Bl B，… Bn。 假 设 R 的 两 个 元 组 在 A1, A;, …, A 上 一 致 ， 由 于 R 满 足 A1 4，… A 一 Bi B;… 
B,, 这 两 个 元 组 在 B,， Bs se*; Bn 上 也 必然 一 致 。 由 于 R 满 足 Bi B;… B, 一 也， 又 可 知 这 两 个 元 
组 在 D 上 一 致 。 因 此 ，R 满 足 4A1 4，… A, 一 D。 

为 什么 闭 包 算法 可 以 找到 所 有 正确 的 FD 

假设 算法 3.7 认 为 FD A14，… 4 一 B 不 能 从 5 中 推断 。 也 就 是 说 ，{41, 42,…, 4,} 关 于 5 的 闭 
包 中 不 包含 8。 必 须 证 明 FED A14，… A 一 了 3 确实 不 能 从 $ 中 推断 ， 也 就 是 要 证 明 至 少 存在 一 个 
关系 实例 满足 S 中 所 有 FD 集合 ， 但 不 满足 A1 4 … 4 一 B。 
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如 图 3-5 所 示 ， 构 造 这 样 一 个 实例 /非常 简单 。/ 只 有 两 个 元 组 :和 s。 这 两 个 元 组 在 {41, 4;， 
…, An}+ 的 所 有 属性 上 一 致 ， 但 是 在 所 有 其 他 属性 上 不 一 致 。 首 先 要 证 明 / 满 足 S 中 所 有 的 FD， 
然后 证 明 它 不 满足 4 4 … 4 一 B。 

假设 在 9 中 〈 对 FD 的 右边 进行 分 解 之 后 ) 存 : liliw11 2 
在 一 些 / 不 满足 的 FD Ci C;… Ci 一 D。 因 为 /只 有 . 加 
两 个 元 组 :和 s， 所 以 必定 是 这 两 个 元 组 违反 了 C ”图 3-5 满足 5 但 不 满足 41 4 … A 一 B 的 关系 
C2… Ci 一 D。 也 就 是 说 ，t 和 s 在 {C1, Cs, …, CH 实例 I 
上 一 致 ， 但 在 D 上 不 一 致 。 从 图 3-5 中 可 以 看 出 ， 
C1, Cs,…, Ci 必定 属于 {A1, 42,…, 4Aw}+， 这 是 因为 :和 s 只 在 这 些 属性 上 一 致 。 类 似 地 ， 因 为 1hs 
只 在 其 他 属性 上 的 取 值 不 同 ， 因 此 D 必 定 属于 其 他 属性 。 

但 是 这 样 就 不 能 正确 地 计算 出 闭 包 。 因 为 当 X 为 {41, 42,…, 4w} 时 ， 就 可 以 运用 Ci C3… Ck 
一 D 将 D 加 入 X。 由 此 得 出 结论 ，C1C;… Ci 一 D 不 存在 ， 也 就 是 说 ， 实 例 /! 满 足 5。 

其 次 ， 需 要 证 明 / 不 满足 4 A;… 4, 一 B。 这 一 部 分 比较 简单 。A1, As, …, 4, 必 定 属于 :hs 
取 值 相同 的 属性 集 ， 且 B 不 在 {41, 4:, …, Aw}* 中 ， 故 1 和 s 在 8 上 不 一 致 。 因 此 ，/ 不 满足 41 A … 
4, 一 B。 综 上 所 述 ， 算 法 3.7 不 会 断言 过 多 或 过 少 的 FD， 它 恰好 断言 了 所 有 能 从 5 推断 的 FD。 


3.2.6 传递 规则 

传递 规则 联结 了 两 个 FD ， 并 谤 化 了 例 3.4 中 的 结论 。 

。 若 关系 R 中 FD 4 A2… 4 一 BB2 Bn 和 Bi Bi;… Bn 一 Ci1C;… Ci 都 成 立 ， 那 么 FD 4 4: 

…An 一 C1C2… Cx 在 R 中 也 成 立 。 

如 果 C 中 有 属性 属于 4， 则 可 根据 平凡 依赖 规则 把 它们 从 右边 消除 。 

下 面 用 3.2.4 节 中 的 测试 来 证 明 传 递 规则 的 正确 性 。 为 了 证 明 4, 4: … A 一 CC: … Ci 成 立 ， 
需要 根据 所 给 的 两 个 FD 来 计算 {Ai1, 42, …,4nj*。 

从 FD 4 4 … 4 一 Bi1B，… Bn 可 知 ，B1, Bz, …, Bm 均 属于 {Ai, A2, …, An}+。 因 而 ， 可 以 使 
用 FD Bi B,… Bm 一 C1C2… Cx 把 C1, C2,…, Ck 加 入 到 {A1, A2, …, Aw}+。 因 为 C 集 合 中 所 有 的 元 
素 都 属于 {41, A2, …, An}+， 所 以 可 以 得 出 结论 : 对 于 任何 满足 4 A，… 4 一 B1B,… Bn 和 BB; 
… Bn 一 C1C2… Cl 的 关系 而 言 ，A143，… 4 一 C1C2… Ci 都 成 立 。 





闭 包 和 键 
注意 当 且 仅 当 4i, 4A2, …, A 是 关系 的 超 键 时 ，{A1, 42，…，, 4nj* 才 是 这 个 关系 的 所 有 属性 
的 集合 。 只 有 这 样 ，Ai, A2, …, A 才能 函数 决定 所 有 其 他 的 属性 。 如 果 要 验证 {A1, 42 …, A,} 


是 否 是 一 个 关系 的 键 ， 可 以 先 检 查 {A1, A2, …, An + 是否 包 含 了 该 关系 的 全 部 属性 ， 然 后 再 检 
查 不 存在 从 {A1, A2,…, A,} 中 移出 一 个 属性 后 的 集合 XX， 使 得 X* 包 含 关 系 的 所 有 属性 。 


例 3.10 下 面 是 关系 Movies 的 另 一 个 版 本 ， 该 关系 包含 了 电影 公司 和 该 电影 公司 的 相关 信息 。 





title year | length | genre studioName | studioAddr 

Star Wars 1977 | 124 sciFi | Fox Hollywood 

Eight Below 2005 | 120 drama | Disney Buena Vista 

Wayne’s World | 1992 | 95 comedy | Paramount | Hollywood 
在 这 个 关系 中 合理 地 存在 两 个 FD: 


title year 一 studioName 
studioName 一 studioAddr 


锚 3 曹 关系 闪 据 订 至 计 理 论 。 他 


第 一 个 FD 成 立 是 因为 只 有 一 部 电影 满足 给 定 的 title 和 year， 并 且 一 部 给 定 的 电影 只 会 
被 一 个 电影 公司 拥有 。 第 二 个 FD 成 立 是 因为 电影 公司 具有 唯一 的 地 址 。 

运用 传递 规则 ， 上 面 两 个 FD 可 以 合并 得 到 一 个 新 的 FD: 

title year 一 studioAddr 


这 个 FD 说 明 title 和 year ( 即 一 部 电影 ) 确定 了 一 个 地 址 一 一 拥有 这 部 电影 的 电影 公司 的 地 址 。 口 


3.2.7 函数 依赖 的 闭 包 集合 
在 有 些 情况 下 ， 需 要 选择 使 用 哪 一 个 FD 集合 来 表示 一 个 关系 的 完全 FD 集合 。 如 果 给 定 一 
个 FD 集合 S (例如 在 某 个 关系 中 成 立 的 FD 集合 )， 则 任何 和 S 等 价 的 FD 集合 都 被 称 为 5 的 基本 
集 (basis)。 为 了 避免 基本 集 的 激增 ， 只 考虑 那些 FD 的 右边 是 单一 属性 的 基本 集 。 对 于 任意 
一 个 基本 集 ， 可 以 使 用 分 解 规 则 将 FD 的 右边 变 成 单一 属性 。 满 足下 面 三 个 条 件 的 基本 集 B 被 
称 为 关系 的 最 小 化 基本 集 (minimal basis)。 
1. 8 中 所 有 FD 的 右边 均 为 单一 属性 。 
2. 从 B 中 删除 任何 一 个 FD 后 ， 该 集合 不 再 是 基本 集 。 
3. 对 于 8B 中 任何 一 个 FD， 如 果 从 其 左边 删除 一 个 或 多 个 属性 ，B 将 不 再 是 基本 和 集 。 
注意 ， 最 小 化 基本 集中 不 可 能 包含 平凡 FD， 因 为 可 以 根据 规则 (2) 将 其 删除 。 
例 3.11 考虑 关系 R(4, 8, C)， 它 的 任 一 个 属性 都 能 函数 决定 其 他 两 个 属性 。 此 时 它 导出 
的 全 部 FD 集 包含 了 六 个 左边 和 右边 都 只 有 一 个 属性 的 FD: A 一 B、 A 一 C、B 一 A、B 一 C、 
C 一 A 和 C 一 B， 以 及 三 个 左边 有 两 个 属性 的 非 平 凡 FD: AB 一 C、AC 一 B 和 BC 一 A。 另 外 
还 有 右边 不 止 一 个 属性 的 FD (如 A 一 BC) 以 及 平凡 FD (如 A 一 A) 等 。 
关系 R 和 它 的 FD 集合 有 多 个 最 小 化 基本 集 。 其 中 一 个 是 
{A= B, B= A; B= CC, C= B} 
另 一 个 是 {4 一 8B，B 一 C，C 一 A}。 关 系 R 还 有 其 他 一 些 最 小 化 基本 集 ， 本 书 将 它们 留 作 习 题 。 口 
推理 规则 的 完全 集 
若 要 判断 一 个 FD 是 和 否 能 从 一 个 给 定 的 FD 集合 推断 ， 常 用 的 方法 是 3.2.4 节 中 介绍 的 闭 包 
算法 。 虽 然 如 此 ， 有 必要 介绍 一 组 被 称 为 Armstrong 公 理 (Armstrong’s axiom) 的 规则 ， 通 
过 这 些 公 理 ， 可 以 从 一 个 给 定 集 合 中 推断 出 任意 它 能 导出 的 FD。 这 些 公理 是 . 
。 自 反 律 (reflexivity) ， 如 果 {Bi, Bs,…,Bn} C{A1, hz,…,Ar}， 则 A1Ah2… A 一 Bi1B,… B,。 
这 就 是 通常 所 说 的 平凡 FD。 
。 增 广 律 (augmentation)， 如 果 4i42… 4 一 BiB:…B， 那 么 
4 人 CTC Ci— BiBs BnCiCs: C 
对 于 任何 属性 Cl C2, …, Ci 的 集合 都 成 立 。 由 于 集合 C 和 A、B 可 能 有 交集 ， 因 此 需要 
分 别 在 左 、 右 两 边 消除 重复 的 属性 。 
。 传递 律 (transitivity)， 如 果 
AiA2% An — Bi1B,- Bn 和 Bi Bs,… B, CGC 
都 成 立 ， 那 么 A1A2… An 一 Ci1C2… Ck 也 成 立 。 


















3.2.8 投影 函数 依赖 
当 学 习 关 系 模式 的 设计 时 ， 还 需要 回答 下 面 有 关 FD 的 问题 。 假 设 有 一 个 含有 FD 集合 5 的 
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关系 R， 通 过 计算 R! = (R) 得 到 L 对 其 部 分 属性 的 投影 。 那 么 R1 中 有 哪些 FD 成 立 ? 

这 个 问题 的 答案 原则 上 可 以 通过 计算 函数 依赖 集 8 的 投影 (projection of functional 
dependencies $) 获得 。5 的 投影 是 所 有 满足 下 面条 件 的 FD 的 集合 : 

a) 从 5 推断 而 来 。 

b) 只 包含 RI 的 属性 。 

由 于 存在 大 量 这 样 的 FD， 而 且 其 中 很 多 可 能 是 匈 余 的 ( 即 其 中 一 些 FD 是 从 另外 的 FD 推 
出 )， 因 此 可 以 对 它们 进行 简化 。 但 通常 情况 下 ， 计 算 R! 中 全 部 FD 的 复杂 度 和 RI 的 属性 数目 成 
指数 关系 。 简 化 算法 总 结 如 下 : 

函数 依赖 集 的 投影 

输入 : 关系 R 和 通过 投影 Ri = AL(R) 计 算得 到 的 关系 RI， 以 及 在 R 中 成 立 的 FD 的 集合 5。 

输出 :在 Ri 中 成 立 的 FD 集合 。 

方法 : 

1. 令 7 为 最 终 输 出 的 FD 集合 ， 初 始 化 T 为 空 集 。 

2. 对 于 Ri 的 属性 集合 的 每 一 个 子 集 和 ， 计 算 X+。 该 计算 依据 FD 集合 $$， 可 能 会 涉及 一 些 在 
R 模 式 中 却 不 在 Ri 模式 中 的 属性 。 对 于 所 有 在 X* 中 且 属 于 RI 的 属性 4， 将 所 有 非 平凡 的 FD X 
一 A 添加 到 T 中 。 

3. 现在 ，T 是 在 RI 中 成 立 的 FD 基本 集 ， 但 可 能 不 是 最 小 化 基本 集 。 通 过 如 下 方法 对 T 进 行 
修改 来 构造 最 小 化 基本 集 。 

a) 如 果 T 中 的 某 个 FD F 能 从 T 中 其 他 FD 推断 出 来 ， 则 从 T 中 删除 F。 

b) 设 Y 一 B 是 T 中 的 一 个 FD，Y 至 少 有 两 个 属性 ， 从 Y 中 删除 一 个 属性 并 记 为 Z。 如 果 Z 一 
B 能 够 从 T 中 的 FD (包含 Y 一 B) 推断 ， 则 使 用 Z 一 B 替 换 Y 一 B 

c) 以 各 种 可 能 的 方式 重复 上 面 两 个 步骤 ， 直 到 7 不 再 变化 。 

例 3.13 假设 R (4A, B,C,D) 中 有 FD; A 一 B,B8 一 C 和 C 一 D。 假 设 要 对 R 投 影 删除 属 
性 8B， 得 到 关系 RI (4, C, D)。 原 则 上 ， 为 了 找到 裔 的 FD 集合 ， 需 要 计算 {4A, C, D} 的 八 个 子 集 
的 闭 包 ， 并 使 用 FD 集合 的 完全 集 ， 包 括 涉 及 B 的 FD。 但 实际 上 可 以 做 一 些 明 显 的 简化 。 

。 除 去 空 集 和 不 能 推出 非 平 几 FD 的 属性 的 全 集 。 

。 如 果 已 知 集合 X 的 闭 包 包含 了 全 部 的 属性 ， 那 么 就 不 能 再 通过 X 的 超 集 来 寻找 新 的 FD。 

因此 ， 可 先 从 单元 素 集 的 闭 包 出 发 ， 如 有 必要 再 接着 从 双 元 素 集合 的 闭 包 出 发 。 对 于 集 
合 X 的 每 个 闭 包 ， 增 加 FD X 一 E， 其 中 属性 E 既 在 X+ 中 又 在 R1 的 模式 中 ， 但 不 在 X 中 。 

首先 ，{A}* = {A, B, C, D}。 因 此 ，FD 4 一 C 和 A 一 D 在 Ri 中 成 立 。 要 注意 4 一 B 在 R 中 
成 立 ， 但 在 R! 中 毫 无 意义 ， 这 是 因为 B 不 是 R! 的 属性 。 

接着 ， 考 虑 {C}* = {C, D}， 从 这 个 集合 可 以 得 到 Ri, 新 的 FD C 一 D。 因为 {D}* = {D}， 不 
能 添加 新 的 FD。 于 是 ， 单 元 素 集 团 包 计算 完成 。 

由 于 {A}* 包 含 了 RI 的 所 有 属性 ， 因 此 没有 必要 考虑 {A} 的 任何 超 集 。 原 因 是 不 管 找到 什么 
样 的 FD， 如 AC 一 D， 都 可 以 从 左边 进行 只 有 A 的 FD 推断 ， 如 A 一 D。 此 时 ， 仅 需要 考虑 双 元 
素 集 闭 包 {C, D}+ = {C, D}。 它 意味 着 不 能 再 添加 任何 FPD。 闭 包 计算 到 此 为 止 ， 所 得 的 FD 是 : 
A—C, 4 一 D 和 C 一 也 。 

车 仔细 观察 的 话 ， 还 可 发 现 4 一 D 可 以 运用 传递 律 从 其 他 两 个 FD 得 到 。 因 此 ，Ri 的 一 个 
简单 的 、 等 价 的 FD 集合 是 4 一 C 和 C 一 D。 这 个 集合 事实 上 是 Ri 的 一 个 最 小 化 基本 集 。 口 
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3.2.9 习题 
习题 3.2.1 考虑 模式 为 KR (4A, B,C,D) 的 关系 R 和 FED: AB 一 C.C 一 D 和 D 一 A。 
a) 从 给 定 的 FD 集合 能 够 推出 的 非 平 几 FD 是 什么 ”限制 FD 的 右边 只 能 有 一 个 属性 。 
b) R 的 所 有 和 键 是 什么 ? 
c) R 的 所 有 超 键 (不 包含 键 ) 是 什么 ? 
习题 3.2.2, 针对 下 列 模式 和 FD 集合 ， 重 做 习题 3.2.1 中 的 问题 : 
i) 模式 为 S (4, B,C,D), FD:; A 一 B8, B—C 和 B — DD, 
ii) 模式 为 T (A, B,C,D), FD: AB—C, BC—D, CD 一 4 和 AD — B。 
iii) 模式 为 U (A,B8,C,D), FD: A 一 B,B—C,C—D 和 Do— A, 
习题 3.2.3 运用 3.2.4 节 中 的 闭 包 算法 ， 证 明 下 面 的 规则 。 
a) 增 广 左边 (augmenting left side)。 如 果 FD A1A;… A, 一 B 成 立 ， 且 C 是 另 一 个 属性 ， 那 么 可 推断 出 
ArA2‘™ AiC = B, 
b) 全 部 增 广 (full augmentation)。 如 果 FD A143… A, 一 8 成 立 ， 且 C 是 另 一 个 属性 ， 那 么 可 推断 出 4 
A2… AsC 一 BC。 注意 ， 根据 这 个 规则 ， 可 以 很 容易 地 证 明 3.2.7 节 方 框 “推理 规则 的 完全 集 ” 中 
所 提 及 的 增 广 律 (augmentation ) 。 
c) 假 传递 (pseudotransitivity) 。 假 设 FD 4 4 A, 一 Bl B，… B 和 
CUCL GE DD 
成 立 ， 且 B 中 每 个 元 素 都 在 C 中 。 则 
A A rs A By Byres By = D 


成 立 ， 其 中 E 的 元 素 都 在 C 中 ， 而 没有 任何 元 素 在 8 中 。 
d) 加 法 (addition) 。 如 果 FD A1Ah3… A 一 BiB;… B, 和 


CiC23:: Ci— D1D;,: D, 


成 立 ， 那 么 FD AiA3… AnC1C2… Ci 一 BiB;… BDiD;… Dj 也 成 立 。 但 要 消除 4 和 C 中 或 B 和 DD 中 
的 重复 属性 。 

! 习 题 3.2.4 ”通过 给 出 关系 实例 证 明 下 列 有 关 FD 的 规则 无 效 ， 关 系 实例 要 满足 给 定 的 FD 集 (在 “if” 后 
的 ), 但 不 满足 导出 FD 集 (在 “then” 后 的 )。 
a)IfA—BthenB— A, 
b)If AB—C, A—C, thenB—C, 
c)IfAB 一 C, thenA 一 C 或 B 一 C。 

! 习 题 3.2.5 证 明 若 一 个 关系 不 包含 由 其 他 所 有 属性 函数 决定 的 属性 ， 那 么 这 个 关系 根本 就 没有 非 平凡 FD。 

! 习 题 3.2.6 ” 邻 X 和 7Y 是 属性 集合 。 证 明 如 果 XXCY ， 那 么 X*+ CY* ,其 中 庆 和 天 分 别 是 X 和 7 关于 同一 个 
FD 集合 的 闭 包 。 

1! 习题 3.2.7 证 明 (X+)+ = XX+。 

!! 习 题 3.2.8 ”如 果 X* = X， 就 认为 属性 集合 X (关于 一 个 给 定 的 FD 集合 ) 封闭 (closed)。 考 虑 模式 为 
R (A, B, C, D) 的 关系 和 一 个 末 知 的 FD 集合 。 如 果 知 道 哪 个 属性 集合 是 封闭 的 ， 就 可 以 找到 该 FD。 
根据 下 列 条 件 ， 求 出 FD 集合 。 

a) 这 四 个 属性 的 所 有 集合 是 封闭 的 。 
b) 只 有 多 和 {4, B,C,D} 是 封闭 的 。 
c) 封闭 集 是 @，{4, B} 和 {4, B,C, D}。 
! 习 题 3.2.9 找 出 例 3.11 中 关系 和 ED 的 所 有 最 小 化 基本 集 。 
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! 习 题 3.2.10 假设 有 关系 R{A, B, C, D, E} 和 一 些 FD 集 ， 要 把 这 些 FD 投 影 到 关系 8(4, B, C) 上 。 根 据 下 面 
给 出 的 R 中 的 FD 集合 ， 求 出 在 5 中 成 立 的 FD 集合 。 
a) AB 一 DE, C— E, D— CE — A, 
b) A— D, BD— E, AC — EIDE — B., 
c) AB = D, AC—= E, BC—D, D— A 和 E — 8B. 
d)A—=B8B,B=—C, CC-—D, DD— E 和 E— A, 
对 于 每 种 情况 ， 给 出 S 中 的 FD 集合 的 最 小 化 基本 集 。 

!! 习 题 3.2.11 ”证 明 若 一 个 FD Ff 是 从 给 定 FD 集 合 中 推断 出 来 ， 则 根据 给 定 的 FD 集合 可 使 用 Armstrong 公 
理 (在 3.2.7 节 的 方 框 “推理 规则 的 完全 集 ” 中 给 出 ) 证 明 F。 提 示 : 研究 算法 3.7， 证 明 算法 的 每 一 
步 是 怎么 通过 Armstrong 公 理 推导 出 某 些 FD。 


3.3 关系 数据 库 模 式 设计 


不 仔细 选择 关系 数据 库 模 式 会 带 来 元 余 和 相应 的 异常 。 例 如 ， 考 虑 图 3-2 中 的 关系 (图 3-6 
中 重新 给 出 了 该 关系 )。 需 要 注意 的 是 ， 电 影 Star Wars 和 Wayne's World 的 长 度 和 流派 字段 对 
参 演 的 每 个 影星 重复 一 次 。 这 些 信息 的 重复 是 元 余 的 ， 它 是 造成 一 些 错误 的 潜在 原因 。 

本 节 将 解决 如 何 设计 好 的 关系 模式 的 问题 ， 设 计 步骤 如 下 : 

1. 首先 深入 细致 地 研究 不 好 的 模式 设计 存在 的 问题 。 

2. 然后 ， 引 入 “分 解 ”的 思想 ， 把 一 个 关系 模式 (若干 属性 的 集合 ) 分 解 为 两 个 较 小 的 
模式 。 

3. 接 着 ， 引 入 “Boyce-Codd 范 式 ”， 即 “BCNF”， 这 是 在 关系 模式 上 消除 上 述 问题 的 条 件 。 

4. 当 解 释 怎样 通过 分 解 关系 模式 来 确保 BCNF 条 件 时 ， 把 上 面 的 几 点 结合 起 来 。 


year | length | genre studioName | starName 
Star Wars Fox Carrie Fisher 
Star Wars Fox Mark Hamill 
Star Wars Fox Harrison Ford 


Gone With the Wind MGM Vivien Leigh 
Wayne’s World Paramount Dana Carvey 
Wayne’s World Paramount Mike Meyers 





图 3-6 展示 异常 的 关系 Movies1l 


3.3.1 异常 

当 试 图 在 一 个 关系 中 包含 过 多 信息 时 ， 产 生 的 问题 (如 元 余 ) 称 为 异常 (anmoaly)。 异 
常 的 基本 类 型 有 : 

1. 宛 余 (redundancy)。 信 息 没 有 必要 地 在 多 个 元 组 中 重复 。 如 图 3-6 中 Movies1l 关 系 的 
1ength 和 genre 字 段 。 

2. 更 新 异常 (update anomaly)。 可 能 修改 了 某 个 元 组 的 信息 ， 但 是 没有 改变 其 他 元 组 中 
的 相同 信息 。 例 如 ， 发 现 Star Wars 的 实际 放映 时 间 为 125 分 钟 ， 则 可 能 对 图 3-6 中 第 一 个 元 组 
的 1ength 作 了 修改 ， 但 是 没有 改变 第 二 个 和 第 三 个 元 组 的 对 应 信息 。 当 然 ， 读 者 可 能 认为 没 
有 人 会 这 么 不 小 心 。 但 是 ， 可 以 重新 对 关系 模式 进行 设计 ， 使 引起 这 种 错误 的 风险 不 再 存在 。 

3. 删除 异常 (deletion anomaly)。 如 果 一 个 值 集 变 成 空 集 , 就 可 能 带 来 丢失 信息 的 副作用 。 
例如 ， 如 果 从 Gone With the Wind 的 影星 集合 中 删除 Vivien Leigh， 则 数据 库 中 将 不 再 包含 这 
部 电影 的 影星 。 关 系 Moviesl 中 的 最 后 一 个 关于 Gone With the Wind 的 元 组 就 会 消失 ， 而 且 它 
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的 其 他 信息 ， 如 片 长 231 分 钟 、 类 型 为 正剧 (drama) 等 信息 也 会 在 数据 库 中 消失 。 


3.3.2 分 解 关 系 

一 般 用 分 解 (decompose) 关系 的 方法 来 消除 异常 。 关 系 R 的 分 解 涉及 分 离 R 的 属性 ， 以 
构造 两 个 新 的 关系 模式 。 描 述 完 分 解 过 程 后 ， 还 将 介绍 怎样 分 解 才能 消除 异常 。 

给 定 一 个 关系 R(A1, 4A;, …, A,)， 把 它 分 解 为 关系 S(B1, Bs,…, B,) 和 T(C1, C2,…, Ci)， 并 且 
满足 

1.{4 Az, '", Ax} =-{B1, B»,*…, Bn} UYU {Ci,C2, ,Cr}o 

2,8 = Npy By, 78 (RY, 

3 天 = NC. C2, ,Ck (R)。 

例 3.14 “分解 图 3-6 中 的 关系 Movies1。 采 用 如 下 方法 对 关系 进行 分 解 (其 优点 将 在 3.3.3 
节 介 绍 ): 

1 .关系 Movies2， 它 的 模式 包含 了 除 sStarName 外 的 其 他 所 有 属性 。 

2. 关系 Movies3， 它 的 模式 包含 了 属性 title、year 和 starName。 

关系 Movies1 在 这 两 个 新 模式 上 的 投影 如 图 3-7 所 示 。 口 


de | ver [length | gerre | studioName] 
Star Wars 1977 | 124 sciFi Fox 
Gone With the Wind | 1939 | 231 drama MGM 
Wayne’s World 1992 | 95 comedy | Paramount 






a) 关系 Movies2 


starName 
Carrie Fisher 
Mark Hamill 

Harrison Ford 
Vivien Leigh 
Dana Carvey 
Mike Meyers 





















Star Wars 
Star Wars 
Star Wars 
Gone With the Wind 
Wayne’s World 
Wayne’s World 







b) 关系 Movies3 
图 3-7 关系 Movies1 的 投影 


下 面 分 析 这 个 分 解 怎样 消除 了 3.3.1 节 中 所 讲 的 异常 。 元 余 被 消除 了 ， 例 如 ， 关 系 Movies2 
中 每 部 电影 的 片 长 只 出 现 一 次 。 更 新 异常 的 风险 被 消除 了 。 例 如 ， 因 为 只 需要 修改 Movies2 中 
一 个 Star Wars 元 组 上 的 1ength 值 ， 不 会 造成 同一 部 电影 有 不 同 片 长 的 情况 。 

最 后 ， 删 除 异常 的 风险 被 消除 。 如 果 删 除 所 有 Gone With the Wind 的 影星 ， 将 导致 这 部 电 
影 从 Movies3 中 消失 ,但 是 这 部 电影 的 其 他 信息 仍 可 以 从 Movies2 中 得 到 。 

因为 一 部 电影 的 片 名 和 年 份 可 能 重复 出 现 多 次 ，Movies3 中 好 像 仍 然 存 在 元 余 。 但 是 这 两 
个 属性 构成 了 电影 的 键 ， 没 有 更 简洁 的 方法 来 表示 一 部 电影 了 。 此 外 ，Movies3 不 会 出 现 更 新 
异常 。 例 如 ， 可 能 会 有 人 认为 若 把 Carrie Fisher 所 在 元 组 中 的 年 份 改 为 2008 ， 而 不 对 Star Wars 
的 其 他 两 个 元 组 进行 修改 ， 那 么 就 会 引起 更 新 异常 。 然 而 ， 在 假设 的 FD 集 合 中 有 可 能 存在 一 
部 名 为 Star Wars、 影 星 为 Carrie Fisher 而 年 份 为 2008 年 的 电影 。 因 此 ， 不 能 阻止 在 Star Wars 的 
某 个 元 组 中 改变 year， 也 不 能 保证 这 种 改变 一 定 不 正确 。 
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3.3.3 Boyce-Codd 范 式 

分 解 的 目的 就 是 将 一 个 关系 用 多 个 不 存在 异常 的 关系 替换 。 也 就 是 说 ， 在 一 个 简单 的 条 
件 下 保证 前 面 讨 论 的 异常 不 存在 。 这 个 条 件 称 为 Boyce-Codd 范 式 (Boyce Codd normal form ) ， 
简称 为 BCNF。 

. 关系 R 属 于 BCNF 当 上 且 仅 当 : 如 果 R 中 非 平 几 FD AlAh; Ste An = Bl B; Et Bn 成 立 ， 则 {Al As 

… 有 An} 是 关系 R 的 超 键 。 

换言之 ， 每 个 非 平 几 FD 的 左边 都 必须 是 超 键 。 由 于 超 键 不 一 定 要 最 小 化 ， 因 此 ，BCNF 
的 一 个 等 价 描述 是 ， 每 个 非 平凡 ED 的 左边 必须 包含 键 。 

例 3.15 ”图 3-6 中 的 关系 Movies1 不 属于 BCNF， 下 面 将 给 以 证 明 。 首 先 要 确定 构成 键 的 属 
性 集 ， 例 3.2 中 已 指出 {title，year，starName} 是 键 。 因 此 ， 任 何 包含 这 三 个 属性 的 属性 集 
合 都 是 超 键 。 例 3.2 中 的 方法 在 这 里 还 可 以 用 来 解释 下 面 的 结论 : 没有 任何 不 包含 这 三 个 属性 
的 属性 集合 是 超 键 。 因 此 ，{titie，year，starName} 是 Movies1 的 唯一 键 。 

但 是 ， 根 据 例 3.2 可 知 Movies1 中 存在 FD 

title year 一 length genre studioName 
不 幸 的 是 ， 该 FD 的 左边 不 是 超 键 。 特 别 是 ，tit1e 和 year 不 能 函数 决定 属性 starName， 因 此 
这 个 FD 违反 了 BCNF 和 条件， 说 明 Movies1 不 属于 BCNF，。 口 

例 3.16 另 一 方面 ， 图 3-7 中 的 Movies2 属 于 BCNF。 因 为 该 关系 中 存在 FD 

title year 一 length genre studioName 
并 且 已 知 title 和 year 中 的 任何 一 个 都 不 能 函数 决定 其 他 属性 ， 故 Movies1 的 唯一 键 是 {title， 
year}j。 另 外 ， 仅 有 的 非 平凡 ED 的 左边 包含 tit1e 和 year ， 因 此 这 个 非 平凡 ED 的 左边 是 超 键 。 
因此 ，Movies2 属 于 BCNF。 口 

例 3.17 ”任意 一 个 二 元 关系 属于 BCNF。 为 此 必须 审查 所 有 可 能 的 右边 是 单个 属性 的 非 平 
几 FD。 由 于 没有 太 多 的 情况 可 以 讨论 ， 下 面 将 依次 列 出 这 些 情况 。 假 设 属性 为 4 和 B。 

1. 没有 非 平 几 FD。 因 为 只 有 非 平 几 FD 才 能 违反 这 个 条 件 ， 所 以 BCNF 条 件 肯 定 成 立 。 在 
这 种 情况 下 ，{4, 8} 是 唯一 的 键 。 

2.4 一 8 成 立 ， 但 B 一 4 不 成 立 。 在 这 种 情况 下 ，4 是 唯一 的 键 ， 每 个 非 平 凡 FD 的 左边 都 
包含 4 (事实 上 ， 左 边 只 能 是 4)。 因 此 没有 FD 违反 BCNF，。 

3.8 一 4 成 立 ,， 但 4 一 8 不 成 立 。 这 种 情况 与 第 二 种 情况 类 似 。 

4. 4 一 B 和 B 一 4 都 成 立 。 于 是 4 和 8 都 是 键 。 由 于 任 一 FD 的 左边 至 少 会 包含 4 和 8 中 的 一 
个 ， 因 此 ， 没 有 FD 违反 BCNF。 

值得 注意 的 是 ， 第 四 种 情况 说 明 关 系 可 能 会 有 多 个 键 。BCNF 条 件 要 求 的 是 任 一 个 非 平凡 
FD 的 左边 含有 某 些 键 ， 而 不 一 定 是 全 部 的 键 。 对 于 只 有 两 个 属性 的 关系 ， 每 个 属性 都 函数 决 
定 另 一 个 的 情形 并 不 难以 置信 。 例 如 ， 一 个 公司 会 分 配给 它 的 员工 唯一 的 ID ， 并 且 记 录 他 们 
的 社会 保险 号 。 一 个 只 有 empID 和 ssNO 的 关系 中 的 每 个 属性 都 函数 决定 另 一 个 属性 。 换言之 ， 
每 个 属性 都 是 键 ， 因 此 没有 两 个 元 组 在 某 个 属性 上 的 值 相同 。 口 


3.3.4 分 解 为 BCNF 

重复 选择 使 用 适当 的 分 解 ， 可 以 把 任何 一 个 关系 模式 分 解 为 带 有 下 列 重要 性 质 的 具有 多 
个 属性 的 子 集 : 

1. 以 这 些 子 集 为 模式 的 关系 都 属于 BCNF。 

2. 原始 关系 中 的 数据 都 被 正确 地 反映 在 分 解 后 的 关系 上 ， 对 此 3.4.1 节 的 表述 更 准确 。 简 
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单 讲 ， 原 始 关系 应 能 从 分 解 后 的 几 个 关系 实例 中 重 构 。 

例 3.17 指 出 所 有 要 做 的 事情 是 把 关系 分 解 为 多 个 只 包含 两 个 属性 的 子 集 ， 而 结果 必然 属于 
BCNF。 但 是 这 样 武断 的 分 解 会 导致 不 能 满足 上 述 第 二 个 性 质 ，3.4.1 节 会 给 出 说 明 。 事 实 上 ， 
分 解 关系 模式 时 必须 非常 小 心 ， 分 解 时 可 以 利用 违反 BCNF 的 FD 来 指导 。 

要 遵循 的 分 解 策略 是 找 出 违反 BCNF 条 件 的 非 平 几 FD 4 4 …4 一 B1B,… Bn， 并 且 {4， 
42,…, 4 小 不 是 超 键 。 要 尽 可 能 地 向 FD 的 右边 增加 由 
{41, 42, …, 4 决定 的 属性 。 这 个 步 又 不 是 必需 的 ， 但 
它 往 往 能 够 减少 总 的 工作 量 ， 因 此 把 它 包 含 在 算法 中 。 


图 3-8 说 明了 属性 集合 是 如 何 被 分 解 为 两 个 重 双 的 关系 

模式 ， 其 中 一 个 模式 包含 了 上 述 FD 的 所 有 属性 ， 而 另 

一 个 包含 了 该 FD 左边 的 属性 和 不 属于 该 FD 的 所 有 属性 ， 

即 除了 属于 B 且 不 属于 4 的 属性 之 外 的 所 有 属性 。 图 3-8 基于 BCNF 违 例 的 关系 模式 分 解 
例 3.18 考虑 图 3-6 中 的 关系 Movies1。 从 例 3.15 可 

知 FD 


title year 一 length genre studioName 
违反 了 BCNF。 在 该 FD 中 ， 右 边 己 经 包含 了 由 tit1le 和 year 函 数 决定 的 所 有 属性 ， 所 以 可 以 基 
于 这 个 BCNF 违 例 把 Movies1 分 解 为 : 

1. 模 式 {title，year，length，genre，studioName}， 包含 上 述 FD 的 所 有 属性 。 

2. 模式 {title，year，starName}， 包 含 FD 左 边 的 属性 以 及 不 在 FD 左右 两 边 出 
现 的 其 他 所 有 属性 (该 例 中 仅 有 starName)。 

上 面 两 个 模式 就 是 例 3.14 中 给 出 的 关系 Movies2 和 Movies3。 例 3.16 中 说 明了 Movies2 属 于 
BCNF。Movies3 也 属于 BCNFE， 因 为 它 没 有 非 平凡 FD。 口 

在 例 3.18 中 ， 一 次 明智 的 分 解 规则 的 应 用 足以 产生 一 系列 属于 BCNF 的 关系 。 但 通常 情况 
下 并 不 如 此 ， 下 面 的 例子 将 予以 说 明 。 

例 3.19 考虑 具有 如 下 模式 的 关系 : 

{title, year, studioName, president, presAddr} 

该 关系 的 每 个 元 组 包含 一 部 电影 、 它 的 电影 公司 、 电 影 公司 的 经 理 (president) 以 及 他 的 
地 址 信息 (presAddr)。 关 系 上 可 能 存在 的 三 个 FD 是 : 


title year 一 studioName 
studioName 一 president 
president 一 presAddr 


通过 计算 五 个 属性 的 闭 包 ， 可 知 关 系 的 唯一 键 是 {title，year}。 因 此 上 述 最 后 两 个 FD 
都 违反 了 BCNF。 假 设 利 用 下 面 的 FD 开始 分 解 

studioName 一 president 

首先 ， 向 该 函数 依赖 的 右边 添加 包含 在 studioName 闭 包 中 的 其 他 属性 。 闭 包 中 包含 
presAddr ， 于 是 得 到 用 于 分 解 的 最 终 FD: 

studioName 一 President presAddr 
基于 这 个 FED， 把 关系 分 解 为 下 面 两 个 关系 模式 : 


{title, year, studioName} 
{studioName, president, presAddr} 


如 果 使 用 算法 3.12 来 投影 FD ， 就 可 确定 第 一 个 关系 含有 基本 FD 
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title year 一 studioName 


第 二 个 关系 含有 基本 FD， 
studioName 一 president 
president — presAddr 


第 一 个 关系 唯一 的 键 是 {title，year}， 因 此 它 属 于 BCNF。 第 二 个 关系 也 有 了 唯一 键 
{studioName}+， 但 是 其 FD ， 

President 一 presAddr 
违反 了 BCNF。 因 此 ， 必 须 进一步 利用 上 述 FD 对 第 二 个 关系 进行 分 解 。 所 得 的 最 后 结果 为 三 
个 均 属于 BCNF 的 关系 模式 ，; 

{title, year, studioName} 


{studioName, president} 
{president, presAddr} 口 


通常 ， 必 须 反 复 使 用 分 解 规则 ， 直 至 所 得 的 关系 均 属 于 BCNF。 这 样 做 一 定 会 成 功 ， 因 为 
每 次 对 关系 R 运 用 分 解 规则 后 ， 所 得 模式 中 的 属性 个 数 都 少 于 原 关 系 模式 的 。 例 3.17 说 明 ， 当 
分 解 为 只 有 两 个 属性 的 集合 后 ， 所 得 关系 必定 属于 BCNF。 但 很 多 情况 下 有 多 个 属性 的 关系 也 
属于 BCNF。 分 解 策略 总 结 如 下 : 


BCNF 分 解 算法 

输入 : 关系 Ro 和 其 上 的 函数 依赖 集 So。 

输出 ， 由 Ro 分 解 出 的 关系 集合 ， 其 中 每 个 关系 均 属 于 BCNF.。 

方法 : 下 列 步 骤 可 以 被 递归 地 用 于 任意 关系 R 和 FD 集合 。 初 始 时 ，R = Ro, 5S = So。 

1. 检验 R 是 否 属于 BCNF。 如 果 是 ,不 需要 做 任何 事 ， 返 回 {R} 作 为 结果 。 

2. 如 果 存 在 BCNF 违 例 ， 假 设 为 X 一 Y。 使 用 算法 3.7 计 算 X+。 选 择 R! = X* 作 为 一 个 关系 模 
式 ， 并 使 另 一 个 关系 模式 R; 包 含 属性 X 以 及 那些 不 在 X* 中 的 属性 。 

3. 使 用 算法 3.12 计 算 Ri 和 Rz 的 FD 集 ， 分 别 记 为 $1 和 5S,。 

4. 使 用 本 算法 递归 地 分 解 R 和 R,。 返 回 这 些 分 解 得 到 的 结果 集合 。 


3.3.5 习题 

习题 3.3.1 对 于 下 列 关系 模式 和 FD 集合 : 
a) R (4, B,C,D), 含有 FD: 4B 一 C，C 一 D 和 D 一 4。 
b) R (4,B,C,D)， 含 有 FD: B 一 C 和 B 一 了 。 
c) R (4,B,C,D)， 含 有 FD: 4B 一 C，BC 一 D，CD 一 4 和 4D 一 B。 
d) R (4,B,C,D), 含有 FD: 4 一 B,，B 一 C，C 一 D 和 D 一 4。 
e) R (A,B,C,D, E), 含有 FD: AB— C, DE 一 C 和 B — D, 
f) R (4,B,C,D, E), 含有 FD: 48 一 C，C 一 D, 了 一 8 和 D —E, 
做 下 列 事情 : 
i) 指出 所 有 违反 BCNF 的 FD。 不 要 忘记 考虑 那些 不 在 上 述 集合 中 、 但 可 以 由 它们 推断 出 的 FD。 但 是 ， 

没有 必要 给 出 右边 含有 不 止 一 个 属性 的 BCNF 违 例 。 

ii) 根据 需要 把 关系 分 解 为 一 系列 属于 BCNF 的 关系 集合 。 

习题 3.3.2 ”在 3.3.4 市 中 曾 指出 ， 如 果 可 能 的 话 ， 可 以 扩展 一 个 违反 BCNF 的 FD 的 右边 属性 集 ， 但 这 是 
个 可 选 步骤 。 考 虑 模式 为 属性 集合 {A, B, C, D}， 并 含有 FD 4 一 B 和 A 一 C 的 关系 R。 因 为 R 的 唯一 
键 是 {4, D}， 所 以 这 两 个 FD 都 违反 了 BCNF。 假 设 根据 4 一 B 来 分 解 R， 那 么 最 终 所 得 的 结果 是 否 和 
先 把 BCNF 违 例 扩展 为 4 一 BC 再 进行 分 解 所 得 的 结果 相同 ? 若 相 同 ， 为 什么 ? 若 不 同 ， 又 为 什么 ? 
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习题 3.3.3 ”假设 R 与 习题 3.3.2 中 相同 ， 但 是 它 含 有 的 FD 为 4 一 B 和 B 一 C。 再 次 比较 使 用 4 一 B 进 行 分 
解 和 使 用 4 一 BC 进行 分 解 所 得 的 结果 。 

! 习 题 3.3.4 假设 有 一 个 关系 模式 R(A, B, C)， 它 含有 FD 4 一 B。 假 设 要 把 它 分 解 为 S(4, B) 和 7(B. C)。 给 
出 R 的 一 个 实例 ， 使 其 投影 到 $ 和 7T 后 再 将 投影 结果 进行 连接 得 到 的 结果 与 原 关系 实例 不 同 ， 即 
TaB (R) pq NAac(R)#A R, 


3.4 分 解 的 优 劣 


迄今 为 止 ， 人 们 认识 到 ， 一 个 关系 模式 被 分 解 为 一 系列 属于 BCNE 的 关系 前 ， 它 可 能 包含 
异常 ， 分 解 之 后 则 不 包含 异常 。 这 就 是 所 谓 的 “ 优 ”(good) 。 但 是 分 解 也 可 能 造成 一 些 坏 的 
结果 。 本 节 将 介绍 一 个 分 解 应 当 具 有 的 三 个 性 质 。 

1. 消除 异常 (Elimination of Anomalie) ， 如 3.3 节 中 所 描述 。 

2. 信息 的 可 恢复 (Recoverability of Information ) 。 是 否 能 够 从 分 解 后 的 各 个 元 组 中 恢复 
原始 关系 ? 

3. 依赖 的 保持 (Preservation of Dependencies)。 如 果 FD 的 投影 在 分 解 后 的 关系 上 成 立 ， 
能 否 确保 对 分 解 后 的 关系 用 连接 重 构 获取 的 原始 关系 仍然 满足 原来 的 FD? 

算法 3.20 中 的 BCNF 分 解 可 以 保证 (1) 和 (2)， 但 不 一 定 能 保证 所 有 的 三 个 性 质 。3.5 节 中 将 
介绍 另 一 种 分 解 方法 ， 它 可 以 保证 (2 和 (3)， 却 不 一 定 能 保证 (1)。 事 实 上 ， 没 有 方法 能 够 同时 
保证 这 三 个 性 质 。 


3.4.1 从 分 解 中 恢复 信息 

由 于 已 知 每 一 个 二 元 关系 都 属于 BCNF， 那 么 为 什么 还 要 经 历 算法 3.20 中 的 麻烦 过 程 
昵 ? 为 什么 不 直接 把 任意 关系 R 分 解 为 一 系列 只 包含 R 的 某 一 对 属性 的 关系 呢 ? 原因 在 于 ， 
即使 在 分 解 后 的 关系 中 ， 每 个 元 组 都 是 R 的 关系 实例 的 投影 ， 也 不 能 保证 可 以 通过 连接 分 解 
的 各 个 关系 重 构 原 关 系 实例 R。 如 果 确 实 能 够 重新 获得 R， 则 称 该 分 解 含 有 无 损 连 接 
(lossless join ) 。 

但 是 ， 如 果 使 用 算法 3.20 进 行 分 解 ， 其 中 所 有 的 分 解 都 起 因 于 一 个 违反 BCNF 的 FD， 那 么 
将 原始 元 组 的 投影 进行 连接 就 可 以 生成 所 有 原始 元 组 ， 且 仅 生成 原来 的 那些 元 组 。 本 节 将 说 
明 原 因 。 然 后 ，3.4.2 节 将 给 出 chase 算 法 ， 用 来 检验 一 个 关系 在 其 分 解 上 的 投影 是 否 可 通过 重 
新 连接 (rejoin) 来 恢复 原 关 系 。 

为 了 简化 起 见 ， 只 考虑 关系 R(4, B, C) 和 一 个 违反 BCNF 的 FD B 一 C。 基 于 该 FD B 一 C 可 
把 各 属性 分 解 到 关系 R (4,B) 和 Raz(B,C)。 

令 t 是 R 的 一 个 元 组 ， 并 记 t =(a, b, c)， 其 中 a, b 和 ec 分别 是 1 在 属性 4，B 和 C 上 的 分 量 。 元 组 
! 在 关系 模式 RiI(4, B) = ma.a (R) 上 的 投影 是 (a, b)， 而 在 关系 模式 Ra(B, C)= xs.c (R) 上 的 投影 是 
(bp，c)。 当 计算 自然 连接 Ri mR 时 ， 因 为 它们 在 8 上 的 分 量 一 致 (都 等 于 bp)， 这 两 个 投影 后 的 
元 组 将 被 连接 。 连 接 结果 是 元 组 + =(a, b, c)， 即 原来 的 那个 元 组 。 也 就 是 说 ， 无 论 开始 的 元 组 t 
是 什么 ， 总 是 可 以 连接 它 的 各 个 投影 来 重 构 i。 

然而 ， 恢 复 那 些 用 以 分 解 的 关系 元 组 并 不 足以 确保 原始 关系 R 可 以 正确 地 被 分 解 关系 所 表 
示 。 如 果 R 中 有 元 组 ! =(a, b, c) 和 v =(d, b, e)， 将 会 有 什么 样 的 结果 ? 把! 投影 到 Ri (4, B) 上 可 得 
u =(a, b)， 而 把 vy 投 影 到 R32(B, C) 上 可 得 w =(b, e)。 这 两 个 元 组 也 可 以 进行 自然 连接 ， 结 果 得 到 
元 组 x = (a; b,e)。x 是 伪 元 组 吗 ? 也 就 是 说 ，(a,b, e) 可 能 不 是 R 的 元 组 吗 ? 

因为 已 假设 R 中 存在 FD B 一 C， 所 以 答案 是 “ 否 ”。 这 个 FD 意味 着 R 中 的 两 个 元 组 只 要 在 
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8 分量 上 相同 ， 它 们 在 C 分 量 上 一 定 也 相同 。 而 thv 在 8 分 量 上 相同 ， 于 是 它们 在 C 分 量 上 也 应 
相同 。 这 意味 着 ，c = e， 于 是 两 个 被 假定 不 相等 的 值 其 实 相 同 。 因 此 ， (a, b, c) 就 是 (a, b, e)， 
Rw = 

由 i 在 R 中 可 知 x 一 定 也 在 R 中 。 换 言 之 ， 只 要 R 中 存在 FD B 一 C， 连 接 两 个 投影 后 的 元 组 
就 不 会 生成 一 个 伪 元 组 。 而 且 ， 每 一 个 通过 自然 连接 生成 的 元 组 必定 属于 R。 

这 个 论断 通常 是 正确 的 。 虽 然 这 里 假设 4，B8 和 C 都 是 单个 属性 ， 但 对 属性 集合 X,Y,Z 也 同样 成 
立 。 也 就 是 说 ， 如 果 Y 一 Z 在 关系 R 上 成 立 ， 且 R 的 属性 集 为 XUYUZ， 那 么 R =z uy (R) Mantyuz (R)。 

结论 是 : 

*。 如 果 根 据 算法 3.20 对 一 个 关系 进行 分 解 ， 则 原始 关系 可 以 通过 自然 连接 来 精确 地 恢复 。 

为 了 说 明 原 因 ， 针 对 递归 分 解 的 任 一 步骤 加 以 证 明 : 一 个 关系 等 价 于 它 在 两 个 分 量 上 的 
投影 的 连接 。 如 果 这 些 分 量 被 进一步 分 解 ， 它 们 也 同样 可 以 通过 自然 连接 从 分 解 得 到 的 关系 
中 恢复 。 因 此 ， 可 以 对 二 元 分 解 的 步骤 数 进行 简单 的 归纳 ， 来 证 明 无 论 其 被 分 解 为 什么 关系 ， 
原始 关系 都 总 是 分 解 得 到 的 各 关系 的 自然 连接 。 同 时 可 以 证 明 自 然 连接 满足 结合 律 和 交换 律 ， 
因此 无 需 考 虑 自然 连接 的 顺序 。 

上 述 结论 成 立 的 本 质 是 FD Y 一 Z， 或 其 对 称 的 FD 了 一 X 成 立 。 若 没有 这 些 FD， 则 可 能 无 
法 恢复 原始 关系 。 下 面 是 一 个 例子 。 

例 3.21 假设 有 一 个 与 上 面相 同 的 关系 R(4, B,C),， 但 是 关系 中 不 存在 FD B 一 4 和 B 一 C。 
Re 可 能 包含 下 面 两 个 元 组 


4| C 
1 3 
4 5 


则 KR 在 {4, B} 和 {B, C} 上 的 投影 分 别 为 R1 = xtas (R)= 


DD NI 


和 R2 = Ngc (R)= 


因为 这 四 个 元 组 在 B8 上 分 量 相 同 ， 值 均 为 2， 所 以 一 个 关系 的 每 一 个 元 组 都 可 以 和 男 一 个 关系 
的 所 有 元 组 进行 连接 。 当 试 着 通过 对 投影 得 到 的 关系 进行 自然 连接 重 构 R 时 ， 就 会 得 到 Rs = 
RimR;, = 2 


从 图 中 可 看 出 ， 所 得 关系 的 元 组 多 于 原始 关系 中 的 元 组 ， 即 得 到 了 两 个 伪 元 组 (1，2，5) 
和 “(4，2，3)， 它 们 均 不 在 原始 关系 R 中 。 口 
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连接 是 否 是 恢复 的 唯一 方法 ? 
我 们 已 经 假定 能 够 用 来 从 投影 中 重 构 关系 的 唯一 方法 是 自然 连接 。 但 是 ， 是 否 可 能 存在 
其 他 方法 可 以 重 构 原始 关系 ， 甚 至 是 在 自然 连接 失败 的 情况 下 也 如 此 ? 事实 上 不 存在 这 样 的 
方法 。 在 例 3.2.1 中 ， 关 系 R 和 Rs 是 不 同 的 实例 ， 但 在 {A, B} 和 {B, C} 上 的 投影 完全 相同 ， 分 别 


是 Ri 和 Rz。 因 此 ， 给 定 Ri 和 Rz， 没 有 任何 算法 能 够 判定 原始 实例 是 R 还 是 Rs。 

此 外 ， 这 个 例子 不 是 特例 。 给 定 任意 分 解 ， 将 属性 为 XUYUZ 的 关系 分 解 为 模式 分 别 为 
UY 和 YUZ 的 关系 ， 且 FDY 一 X 和 Y 一 Z 均 不 成 立 ， 则 可 以 构造 和 例 3.2.1 类 似 的 例子 ， 其 中 原 
始 实例 无 法 由 其 投影 来 确定 。 





3.4.2 无 损 连 接 的 chase 检 验 

3.4.1 节 说 明了 为 什么 当 关 系 R(A, B, C) 依 据 一 个 特殊 的 ED B 一 C 被 分 解 成 {4, B} 和 {B, C} 
上 时， 该 分 解 包 含 了 一 个 无 损 连接 的 原因 。 现 在 考虑 更 加 一 般 的 情况 。 假 设 关系 R 被 分 解 为 若干 
关系 ， 它 们 包含 的 属性 集 分 别 为 51, 5;,…, St。 在 R 上 成 立 的 FD 集合 为 F。 当 把 关系 R 投 影 到 这 
些 分 解 关系 上 后 ， 是 否 能 够 通过 所 有 这 些 关系 的 自然 连接 来 恢复 R? 即 xs(R) MN,(R) m4… ma 
As(R)= R? 牢记 三 个 重要 的 性 质 ，; 

* 自然 连接 满足 结合 律 和 交换 律 。 无 论 以 何 种 顺序 对 投影 结果 进行 连接 ， 得 到 的 结果 关系 

都 相同 。 特 别 地 ， 结 果 是 满足 下 面条 件 的 元 组 1 的 集合 : 对 所 有 i = 1, 2, …,k，! 在 属性 集 

合 % 上 的 投影 是 mm， (R) 的 一 个 元 组 。 

。R 中 的 任意 元 组 都 必然 属于 xs,(R) mts,(R) P44… ba xs,(R), 理由 是 ， 对 所 有 i，! 在 $; 上 的 投 

影 必然 属于 xts,(R)， 因 此 根据 上 面 第 一 个 性 质 ，i 必 然 在 连接 结果 中 。 

“推论 : 当 F 中 的 FD 对 R 成 立时 ， 琵 |(R) ms,(R) m4… m4 ms(R)=R， 当 且 仅 当 连 接 结果 中 的 每 

个 元 组 都 属于 R。 也 就 是 说 ， 只 需要 进行 成 员 关系 测试 就 可 以 验证 分 解 是 否 包含 无 损 连 接 。 

无 损 连 接 的 chase 检 验 仅 仅 是 以 一 种 有 条 理 的 方式 来 判断 是 否 可 以 根据 Ff 中 的 FD 来 证 明 ， 
所 有 属于 zis(R) mns,(R) M4… m4 tss(R) 的 元 组 :也 都 是 关系 R 的 元 组 。 如 果 1 在 连接 结果 中 ， 则 R 
中 必然 存在 元 组 ti, 12, …, ， 使 得 每 个 万 在 对 应 的 属性 集 5;(i = 1, 2,…, kK) 上 的 投影 结果 的 连接 
等 于 t。 因 此 可 知 # 和 {在 5; 的 属性 上 一 致 ， 但 i 的 其 他 分 量 的 值 未 知 。 

下 面 使 用 图 例 (tableau) 来 描述 已 知 的 内 容 。 假 设 R 包 含 属性 A, B, …, 使 用 a, b, … 来 表示 
1 的 分 量 。 对 于 t;， 使 用 和 1 相同 的 字母 表示 那些 5; 属性 上 的 分 量 ， 若 不 属于 S;:， 则 使 用 加 下 标 i 
的 字母 来 表示 分 量 。 在 这 种 方式 下 ,ti 和 1 在 5; 属性 上 一 致 ， 但 在 其 他 属性 上 有 唯一 的 值 出 现 
在 图 例 中 。 

例 3.22 假设 关系 R(4, B, C, D) 被 分 解 为 三 个 关系 ， 其 属性 集 分 别 为 51 = {4, D}，5; = {4， 
C} 和 $3 = {B,C,D}。 那 么 这 个 分 解 的 图 例如 图 3-9 所 示 。 





第 一 行 对 应 属性 A 和 D 的 集合 ， 注 意 属性 4 和 D 的 分 量 
是 不 带 下 标的 字母 6 和 d。 但 对 于 其 他 属性 ， 比 如 p 和 c， 汪 日 
加 下 标 1 来 表示 它们 是 任意 值 。 这 是 有 意义 的 ， 因 为 元 组 a 
(a, bi, cd) 表示 了 R 的 一 个 元 组 ， 它 通过 在 {4, D} 上 投影 后 。 图 3-9 将 R 分 解 为 {4, D}、{A, C} 
再 和 其 他 元 组 连接 来 形成 1 = (a, b, c,d)。 由 于 该 元 组 的 B 和 而 0 2 全 让 语源 四 抽 
C 分 量 被 投影 操作 去 除 ， 因 此 无 法 知道 元 组 在 这 两 个 属性 
上 的 值 。 


类 似 地 ， 第 二 行 包含 在 属性 4 和 C 上 的 不 带 下 标的 字母 ， 同 时 下 标 2 被 用 于 其 他 属性 。 最 后 
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行 包含 {8, C, D} 上 的 不 带 下 标的 字母 ， 而 a 带 有 下 标 3。 由 于 每 一 行 都 使 用 自己 的 编号 作为 
下 标 ， 因 此 只 有 那些 不 带 下 标的 字母 可 以 多 次 出 现 。 口 

记 住 , 讨论 的 目标 是 使 用 给 定 的 FD 集合 fF 来 证 明 t 确 实在 R 中 。 为 此 ， 对 图 例 进行 “chase”， 
即 通过 应 用 F 中 的 FD 来 尽 可 能 地 等 同 (equate) 图 例 中 的 字母 。 如 果 发 现 某 一 行 和 :相同 ( 即 
该 行 的 字母 都 不 带 下 标 )， 就 可 以 证 明 投 影 连 接 中 的 任意 元 组 :也 是 关系 R 的 元 组 。 

为 避免 混淆 ， 在 等 同 两 个 字母 时 ， 如 果 其 中 一 个 是 不 带 下 标的 ， 那 么 将 另 一 个 也 变 为 不 
带 下 标 。 但 如 果 要 等 同 两 个 带 有 不 同 下 标的 字母 ， 则 可 以 将 任 一 个 字母 的 下 标 变 得 和 另 一 个 
相同 。 需 要 注意 的 是 ， 当 等 同 字 母 时 ， 必 须 对 其 所 有 的 出 现 都 进行 改动 ， 而 非 仅 仅 针对 某 些 
出 现 。 

例 3.23 继续 考虑 例 3.22 中 的 分 解 ， 假 设 给 定 的 FD 是 4 一 B，B 一 C 和 CD 一 4。 从 图 3-9 中 
的 图 例 开始 。 由 于 前 两 行 在 其 4 分 量 上 相等 ，FD 4 一 8 表明 它们 在 8 分 量 上 必然 也 相等 ， 故 bi = 
b;,。 由 于 它们 均 带 有 下 标 ， 故 可 以 用 任意 一 个 来 代替 另 一 个 。 使 用 bi 代 赫 b,， 则 结果 图 例 为 : 

AIJBIC|D 
bi lcild 
bilc |d;, 

aa |b lc ld 

现在 ， 可 以 看 到 前 两 行 具有 相等 的 8 分 量 值 ， 因 此 可 以 使 用 FD B 一 C 来 推导 它们 的 C 分 量 
值 c!/ 和 c 也 相等 。 由 于 c 不 带 下 标 ， 因 此 使 用 c 代 替 c!/， 得 到 : 


ad|b lclada 


接 下 来 ， 可 以 发 现 第 一 和 第 三 行 在 属性 C 和 D 列 上 一 致 ， 因 此 可 以 使 用 FD CD 一 4 来 推断 
这 两 行 也 含有 相同 的 4 分 量 值 ， 即 a = a;3。 使 用 a 代 赫 a;3， 得 到 : 


此 时 ， 可 以 看 到 最 后 一 行 和 1 相 等 ， 即 等 于 (a, b,c, d)。 因 此 已 经 证 明了 如 果 R 满 足 FD 4 一 
B8,，B 一 C 和 CD 一 A， 则 只 要 将 其 投影 到 {4A, D}，{4, C} 和 {8B, C, D} 上 并 进行 连接 ， 得 到 的 
元 组 都 必然 在 R 中 。 特 别 地 ， 得 到 的 元 组 和 R 投 影 到 {B, C, D} 上 的 元 组 相同 。 口 


3.4.3 为 什么 chase 检 验 有 效 

有 两 个 问题 需要 思考 : 

1. 若 chase 过 程 找 到 一 行 与 元 组 !t 相 匹配 〈 即 在 图 例 中 出 现 的 所 有 变量 均 不 带 下 标的 行 )， 
则 连接 是 否 一 定 是 无 损 的 ? 

2, 若 以 所 有 可 能 的 方式 应 用 各 ED 后 ， 仍 然 无 法 得 到 所 有 变量 均 不 带 下 标的 行 ， 则 连接 是 
否 一 定 是 有 损 的 ? 

问题 (1) 易 于 回答 。chase 过 程 本 身 证 明了 R 中 被 投影 的 元 组 中 必然 有 一 个 元 组 和 由 连接 产 
生 的 元 组 ! 在 事实 上 相同 。 同 时 ， 也 知道 R 的 每 个 元 组 都 可 以 通过 投影 、 连 接 操作 重新 得 到 。 
因此 ，chase 过 程 证 明了 投影 和 连接 的 最 终结 果 就 是 原 关系 R。 
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对 于 第 二 个 问题 ， 假 设 最 终 得 到 了 一 个 图 例 ， 其 中 没有 所 有 变量 均 不 带 下 标的 行 ， 并 且 
无 法 再 应 用 任何 FD 来 等 同 任何 字母 。 接 下 来 把 图 例 看 作 R 的 一 个 实例 ， 显 然 它 满足 所 有 给 定 
的 FPD， 因 为 已 经 没有 FD 可 以 用 来 等 同 字母 。 若 已 知 第 i 行 在 属于 5; 〈 即 分 解 得 到 的 第 i 个 关系 ) 
的 那些 属性 上 的 分 量 值 不 带 下 标 ， 因 此 ， 如 果 将 关系 先 投 影 到 5: 上 再 进行 自然 连接 ， 就 会 得 到 
一 个 所 有 分 量 均 不 带 下 标的 元 组 。 这 个 元 组 不 在 R 中 ， 因 此 可 知 连接 不 是 无 损 的 。 

例 3.24 考虑 关系 R(4, B, C, D)， 其 上 存在 FD B 一 AD， 计划 将 其 分 解 为 {4, B}，{B, C} 
和 {C, D}。 初 始 图 例如 下 : 


A | B | CID 
a b C1 di 
a2 b C a2 
as lbs|lc ld 


车 使 用 唯一 的 一 个 FD， 将 推出 a = wx2 和 di = d;。 因 此 ， 最 终 的 图 例 为 : 
AIB | C | D 


a b Cl ai 
a Ib lc ld 
as|lbslc ld 


此 时 ， 无 法 再 根据 给 定 的 FD 进行 任何 改变 ， 且 没有 所 有 分 量 均 不 带 下 标的 行 出 现 。 因 此 ， 这 
个 分 解 不 包含 无 损 连 接 。 可 以 将 上 面 的 图 例 看 作 一 个 有 三 个 元 组 的 关系 以 验证 这 个 事实 。 当 
投影 到 {4, 8} 上 时 ， 得 到 {(a, 5)}，{(a3, b3)}， 投影 到 {B8, C} 上 时 ， 得 到 {(b, c1)，(b, c)，(b;, 
co)}; 投影 到 {C, D} 上 时 ， 得 到 {(c1, d1)，(c, d1)，(c, d)}。 若 将 前 两 个 投影 结果 进行 连接 ， 将 得 
到 {(a, 5b, c1)，(a, b,c)，(as, b3, c)}。 再 和 第 三 个 投影 结果 连接 得 到 {(a, b, cu d1)，(a, b,c, di)， 
(a, b,c,d) ，(a b3, c,d1) ，(a3, ba, c,d)}。 注 意 ， 此 连接 结果 比 R 多 出 两 个 元 组 ， 特 别 是 它 必 
然 含 有 元 组 (a, b,c, d)。 


3.4.4 依赖 的 保持 

在 某 些 情况 下 ， 把 一 个 关系 分 解 为 一 系列 BCNF 关 系 时 ， 无 法 同时 拥有 无 损 连接 和 依赖 保 
持 两 种 性 质 。 下 面 的 例子 说 明 不 得 不 在 保持 依赖 和 BCNF 之 间 做 出 选择 。 

例 3.25 假设 关系 Bookings 含 有 以 下 属性 : 

1. title， 电 影 的 名 称 。 

2. theater， 电 影 正 在 上 映 的 影院 名 称 。 

3. city， 影 院 所 在 的 城市 。 
元 组 (m, 1, c) 的 含义 是 一 部 名 称 为 m 的 电影 正在 位 于 城市 c< 的 影院 :中 上 映 。 

有 理由 断言 以 下 FD 


theater 一 city 
title city 一 theater 


第 一 个 FD 表明 一 个 影院 只 对 应 一 个 城市 ， 第 二 个 含义 不 太 明 显 ， 但 它 基 于 一 个 常识 : 一 部 电 
影 不 会 同时 被 同城 的 两 个 影院 预订 放映 。 这 里 只 是 为 了 这 个 例子 而 断言 此 FD。 
首先 要 找到 键 。 没 有 任何 一 个 属性 可 以 独立 作为 键 。 例 如 ， 由 于 一 部 电影 可 以 在 多 个 影 
院 、 多 个 城市 同时 上 映 ， 故 title 不 是 键 9。 同 样 ， 虽 然 theater 函 数 决 定 city， 但 一 个 影院 可 
以 在 多 个 屏幕 上 同时 放映 多 部 电影 ， 因 此 theater 也 不 是 键 。 因 而 theater 不 能 决定 title。 














9 在 本 例 中 假定 “正在 上 映 的 ”电影 均 不 重 名 ， 尽 管 之 前 认为 可 能 存在 两 部 制作 于 不 同年 份 的 同名 电影 。 
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最 后 ，city 也 不 是 键 ， 因 为 一 个 城市 通常 有 多 个 影院 ， 同 时 可 能 有 多 部 电影 上 映 。 

另 一 方面 ， 包 含 两 个 属性 的 三 个 集合 中 ， 有 两 个 是 键 。{title，city} 明 显 是 键 ， 因 为 
给 定 的 FD 表明 这 两 个 属性 可 以 函数 决定 theater。 

{theater, title} 也 是 键 ， 因 为 根据 FD theater 一 city， 其 闭 包 包 括 city。 余 下 的 一 
对 属性 ， 即 city 和 theater ， 由 于 影院 可 能 有 多 个 屏幕 ， 所 以 不 能 函数 决定 tit1e， 从 而 不 能 
作为 键 。 故 仅 有 的 两 个 键 是 

{title, city} 

{theater, title} 

现在 马上 就 看 到 了 一 个 BCNF 违 例 。 给 定 的 函数 依赖 是 theater 一 city， 而 其 左边 一 一 
theater 一 一 却 不 是 超 键 。 因 此 使 用 这 一 违反 BCNF 的 FD 将 关系 分 解 为 两 个 关系 模式 : 


{theater, city} 
{theater, title} 


这 个 分 解 存在 一 个 问题 ， 考 虑 下 面 的 FD 
title city— theater 
分 解 得 到 的 模式 所 对 应 的 关系 满足 FD theater 一 city (这 可 以 在 关系 {theater，city} 中 检 
验 )。 但 是 ， 进 行 连接 操作 后 ， 产 生 的 关系 却 不 满足 title city 一 theater。 例 如 ， 下 面 两 
个 关系 
theater | city 


Guild | Menlo Park 
Park Menlo Park 


和 
theater | title 


Guild | Antz 
Park Antz 


满足 给 定 的 FPD。 但 它们 连接 后 产生 了 两 个 元 组 
theater | city | title 


Guild | Menlo Park | Antz 
Park Menlo Park | Antz 


它们 违反 了 FD title city 一 theater 。 口 


3.4.5 习题 
习题 3.4.1 将 关系 R(4, B,C,D, E) 分 解 为 三 个 关系 ， 其 属性 集 分 别 为 {4, B, C}，{B8, C, D} 和 {A, C, E}。 

对 于 下 面 每 个 FD 集合 ， 使 用 chase 检 验 说 明 R 的 分 解 是 否 是 无 损 的 。 对 于 那些 有 损 分 解 ， 给 出 R 的 一 
个 具体 实例 ， 将 其 投影 到 分 解 的 关系 后 再 重新 连接 ， 使 得 产生 的 元 组 比 R 多 。 
a) B— E 和 CE — A,。 
b) 4C 一 E 和 BC 一 D。 
c4 一 D, D 一 E 和 8 一 D。 
d) A—D, CD— EE — D, 

! 习 题 3.4.2 对 于 习题 3.4.1 中 的 每 个 FD 集合 ， 依 赖 在 分 解 中 是 否 被 保持 ? 


3.5 第 三 范式 
例 3.25 所 说 明 的 问题 的 解决 方法 是 稍微 放松 BCNF 的 要 求 ， 以 允许 那些 在 分 解 为 BCNF 关 
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系 时 不 能 保持 函数 依赖 的 特殊 关系 模式 。 这 个 放松 的 条 件 称 为 “第 三 范式 ”(third normal 
form) 。 本 节 将 给 出 第 三 范式 的 要 求 ， 然 后 说 明 如 何以 一 种 不 同 于 算法 3.20 的 方式 进行 分 解 ， 
以 在 得 到 第 三 范式 关系 的 同时 ， 拥 有 无 损 连 接 和 依赖 保持 性 质 。 


3.5.1 第 三 范式 的 定义 

关系 R 属 于 第 三 范式 (third normal form ， 缩 写 为 3NF) ， 如 果 它 满足 : 

* 只 要 4 4 … A 一 B1B，… Bn 是 非 平 几 FD， 那 么 或 者 {41, 4. …, A } 是 超 键 ， 或 者 每 个 属 

于 B, B:, …, 了 但 不 属于 4 的 属性 都 是 某 个 键 的 成 员 (所 属 的 键 可 以 不 相同 ) 。 

如 果 一 个 属性 是 某 个 键 的 成 员 ， 则 常 被 称 为 “ 主 属 性 ”(prime)。 因 此 ，3NF 的 条 件 可 以 
表述 成 “对 于 每 个 非 平凡 FD ， 或 者 其 左边 是 超 键 ， 或 者 其 右边 仅 由 主 属 性 构成 ”。 

注意 ，3NF 与 BCNF 条 件 的 区 别 在 于 语句 “是 某 个 键 的 成 员 ( 即 主 属性 )"。 这 个 语句 使 得 
类 似 例 3.25 中 的 theater 一 city 那 样 的 FD 成 为 合法 的 ， 因 为 其 右边 一 一 city 一 一 是 主 属性 。 


其 他 范式 
既然 有 “第 三 范式 ”"， 那 前 两 个 “范式 ”是 什么 呢 ? 确实 它们 也 有 定义 ， 但 现在 已 很 少 


使 用 了 。 第 一 范式 (first normal form) 只 简单 地 要 求 每 个 元 组 的 各 分 量 是 原子 值 。 第 二 范 
式 (second normal form) 是 3NF 的 一 个 限制 较 少 的 版 本 。 还 有 将 在 3.6 节 中 介绍 的 第 四 范式 


(fourth normal from ) 。 





3.5.2 3NF 模 式 综合 算法 

下 面 来 说 明 如 何 将 关系 R 分 解 为 一 系列 满足 以 下 条 件 的 关系 : 

a) 分 解 得 到 的 关系 都 属于 3NF。 

b) 分 解 包含 无 损 连 接 。 

c) 分 解 具有 依赖 保持 性 质 。 

具有 无 损 连 接 和 依赖 保持 性 质 的 3NF 关 系 综合 算法 

输入 ， 关 系 R 和 其 上 成 立 的 函数 依赖 集 F。 

输出 ， 由 R 分 解 出 的 关系 集合 ， 其 中 每 个 关系 均 属于 3NF。 分 解 具有 无 损 连 接 和 依赖 保持 
性 质 。 

方法 ， 依 次 执行 下 列 步 又 

1. 找 出 F 的 一 个 最 小 基本 集 ， 记 为 G。 

2. 对 于 G 中 的 每 一 个 FD X 一 A， 将 XA 作为 分 解 出 的 菜 个 关系 的 模式 。 

3. 如 果 第 2 步 分 解 出 的 关系 的 模式 均 不 包含 R 的 超 键 ， 则 增加 一 个 关系 ， 其 模式 为 R 的 任何 
一 个 键 。 

例 3.27 考虑 关系 R(4, B, C, D, E)， 其 上 的 FD 有 AB 一 C，C 一 B 和 A 一 D。 注 意 到 这 些 
给 定 的 ED 本身 就 是 它们 的 一 个 最 小 基本 集 ， 可 以 通过 下 面 一 些 步 又 来 验证 这 一 点 。 首 先 要 验 
证 的 是 不 能 除去 任何 一 个 依赖 。 对 于 这 一 点 ,由 算法 3.7 可 知 , 任 何 两 个 FD 都 不 能 导出 第 三 个 。 
例如 ， 仅 使 用 第 二 和 第 三 个 FD ( 即 C 一 B 和 A 一 D) 来 计算 第 一 个 FD 的 左边 {4, B} 的 闲 包 ， 
则 该 闲 包 包含 D 但 不 包含 C， 因 此 第 一 个 FD 4B 一 C 不 能 由 第 二 和 第 三 个 FD 导 出。 如 果 去 掉 第 
二 或 第 三 个 FD， 也 将 得 到 类 似 的 结果 。 

同时 ， 还 需要 验证 的 是 不 能 从 任 一 FD 的 左边 除去 任何 属性 。 在 本 例题 情况 下 ， 唯 一 可 能 
的 是 从 第 一 个 FD 的 左边 去 掉 A 或 者 8。 比 如 ， 如 果 去 掉 4， 将 得 到 B 一 C， 那 么 就 需要 证 明 B 
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一 C 无 法 由 原来 的 三 个 FD AB 一 C，C 一 B 和 A 一 D 导 出 。 根 据 这 些 FD 可 知 ，{8} 的 闭 包 是 B， 
故 无 法 推断 出 B 一 C。 如 果 从 4B 一 C 中 去 掉 B， 也 将 得 出 类 似 的 结论 。 因 此 ， 给 定 的 FD 本 身 
就 是 它们 的 一 个 最 小 基本 集 。 

接 下 来 根据 3NF 综 合算 法 ， 将 每 个 FD 的 属性 作为 一 个 关系 模式 ， 从 而 得 到 关系 5S1 (4, B, CO)， 
$2(B, CC 和 53(A,D)。 由 于 没有 必要 使 一 个 关系 的 模式 成 为 另 一 个 关系 模式 的 子 集 ， 因 此 要 去 除 5;。 

还 需要 考虑 是 否 有 必要 增加 一 个 模式 为 键 的 关系 。 在 本 例 中 ，R 有 两 个 键 : {A, B, E} 和 
{4, C, E}。 这 两 个 键 都 不 是 已 经 得 到 的 关系 模式 的 子 集 。 因 此 ， 必 须 增加 它们 之 一 ， 记 为 5。 
(4,B,E)。 关 系 R 最 终 被 分 解 为 S1 (4, B,C)，53 (4, D) 和 54 (4, B, E)。 口 


3.5.3 为 什么 3NF 综 合算 法 有 效 

需要 证 明 三 点 : 分 解 具有 无 损 连 接 和 依赖 保持 性 质 ， 并 且 所 有 分 解 出 的 关系 都 属于 3NF。 

1. 无 损 连 接 (Lossless Join)。 从 一 个 分 解 得 到 的 属性 集 K 为 超 键 的 关系 开始 。 考 虑 在 算法 
3.7 中 将 K 扩 展 为 K+ 时 所 使 用 的 FD 序列 。 由 于 K 是 超 键 ， 故 可 知 K* 就 是 所 有 属性 。 在 图 例 中 以 
同样 的 顺序 应 用 这 些 FD 时 ， 会 使 和 K 对 应 的 行 中 带 下 标的 字母 被 等 同 于 不 带 下 标的 字母 ， 等 
同 的 顺序 和 向 闭 包 中 添加 属性 的 顺序 相同 。 因 此 ，chase 检 验 保证 了 分 解 是 无 损 的 。 

2. 依赖 保持 (Dependency Preservation)。 最 小 基本 集中 的 每 个 FD 的 属性 都 属于 分 解 得 到 
的 某 个 关系 ， 因 此 在 分 解 得 到 的 关系 中 所 有 依赖 都 仍然 成 立 。 

3. 第 三 范式 (Third Normal Form) 。 如 果 不 得 不 增加 一 个 模式 为 键 的 关系 ， 则 该 关系 必然 
属于 3NF。 因 为 这 个 关系 的 所 有 属性 都 是 主 属性 ， 因 此 关系 中 不 会 有 3NF 违 例 。 对 于 那些 模式 
是 由 最 小 基本 集中 的 FD 导出 的 关系 ， 证 明 它 们 属于 3NF 超 出 了 本 书 的 范围 。 该 过 程 包括 证 明 
3NF 违 例 蕴 涵 了 基本 和 集 不 是 最 小 基本 集 。 


3.5.4 习题 

习题 3.5.1 对 于 习题 3.3.1 中 的 每 个 关系 模式 和 FD 集合 : 
iD 指出 所 有 的 3NF 违 例 。 
ii) 如 有 必要 ， 将 关系 分 解 为 一 系列 属于 3NF 的 关系 。 

习题 3.5.2 考虑 关系 Courses(C, T, 瑟 ,R, S. GO)， 其 属性 可 以 非 正式 地 理解 为 课程 、 教 师 、 时 间 、 教 室 、 
学 生 和 成 绩 。 设 Courses 上 的 FD 有 C 一 T，HR 一 C，HT 一 RHS 一 R 和 CS 一 G。 直 观 上 ， 第 一 个 
依赖 表示 一 门 课程 有 唯一 的 一 个 教师 ， 第 二 个 表示 在 一 个 给 定 的 时 间 和 教室 ， 只 能 有 一 门 课程 ,第 
三 个 表示 在 给 定 的 时 间 里 一 个 教师 只 能 在 一 个 教室 ， 第 四 个 表示 在 给 定 的 时 间 里 一 个 学 生 只 能 在 一 
个 教室 ， 最 后 一 个 表示 学 生 在 一 门 课程 中 只 能 得 到 一 个 成 绩 。 
a) 给 出 Courses 的 所 有 键 。 
b) 证 明 给 定 的 FD 本 身 就 是 它们 的 一 个 最 小 基本 集 。 
c) 使 用 3NF 综 合算 法 找 出 一 个 将 关系 R 分 解 为 3NF 关 系 的 方法 ， 该 分 解 要 具有 无 损 连 接 和 依赖 保持 性 

质 。 是 否 有 不 属于 BCNF 的 关系 ? 

习题 3.5.3 考虑 关系 Stocks(B8, 0, 1, S, Q, D)， 其 属性 可 以 非 正 式 地 理解 为 经 纪 人 、 经 纪 人 办 公 室 、 投 
资 者 、 股 票 、 投 资 者 拥有 的 股票 数量 和 股票 的 股息 。Stocks 上 的 FD 有 5S 一 D, 1 一 B, 1S 一 Q 和 B 一 
O。 针 对 关系 Stocks， 重 做 习题 3.5.2 中 的 问题 。 

习题 3.5.4 使 用 chase 验 证 例 3.27 中 的 分 解 包含 无 损 连 接 。 

!! 习 题 3.5.5 ”假设 修改 算法 3.20 (BCNF 分 解 )， 使 得 不 再 分 解 不 属于 BCNF 的 关系 R， 取 而 代 之 的 是 只 分 

解 不 属于 3NF 的 关系 R。 给 出 一 个 反例 ， 说 明 修 改 后 的 算法 并 不 能 保证 产生 一 个 具有 依赖 保持 性 质 的 
3NF 分 解 。 
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3.6 多 值 依赖 


“多 值 依赖 ”(multivalued dependency) 是 两 个 属性 或 属性 集合 之 间 相 互 独立 的 断言 。 它 
是 广义 的 函数 依赖 ， 在 某 种 意义 上 每 个 FD 意 味 着 一 个 相应 的 多 值 依赖 。 但 是 仍然 存在 有 不 能 
用 FD 解释 的 属性 集合 相互 独立 的 情况 。 本 节 将 说 明 引起 多 值 依赖 的 原因 和 在 数据 库 模式 设计 
中 如 何 使 用 多 值 依赖。 


3.6.1 属性 独立 及 随 之 产生 的 元 余 

在 设计 关系 模式 时 ， 有 了 时 会 有 一 些 偶然 的 情况 ， 即 某 个 模式 属于 BCNF， 但 在 相应 的 关系 
中 还 有 与 FD 无 关 的 元 余 存 在 。 在 BCNF 模 式 中 最 常见 的 导致 元 余 的 情形 是 试图 把 键 的 两 个 或 
多 个 集合 值 属性 置 于 同一 个 关系 中 。 

例 3.28 ”在 本 例 中 ,假设 影星 有 多 处 地 址 ， 地 址 包括 街道 (street) 和 城市 (city) 两 部 分 。 地 
址 集合 是 关系 要 存储 的 一 个 集合 值 属 性 ， 而 第 二 个 要 存储 在 这 个 关系 中 的 集合 值 属性 是 某 个 
影星 出 演 的 电影 的 名 称 和 年 份 的 集合 。 图 3-10 给 出 了 这 个 关系 的 一 个 典型 实例 。 


. Fisher | 123 Maple St. | Hollywood | Star Wars 
. Fisher | 5 Locust Ln. Malibu Star Wars 


, Fisher | 123 Maple St. | Hollywood | Empire Strikes Back 
. Fisher | 5 Locust Ln. Malibu Empire Strikes Back 
, Fisher | 123 Maple St. | Hollywood | Return of the Jedi 
. Fisher | 5 Locust Ln. Malibu Return of the Jedi 





图 3-10 独立 于 电影 的 地 址 集合 


图 中 给 出 了 Carrie Fisher 的 两 个 假设 的 地 址 和 她 的 三 部 著名 的 电影 。 没 有 理由 只 把 某 个 地 
址 和 某 部 影片 关联 ， 而 不 与 另 一 部 影片 关联 。 因 此 ， 表 达 影 星 的 地 址 和 电影 相互 独立 的 唯一 
途径 是 把 地 址 和 电影 的 各 种 组 合 都 罗列 出 来 。 但 这 样 的 组 合 显然 包含 元 余 。 例 如 ， 图 3-10 重 
复 列 出 Carrie Fisher 的 每 个 地 址 达 三 次 〈 每 次 对 应 一 部 电影 ) ， 每 部 电影 重复 出 现 了 两 次 (每 
次 对 应 一 个 地 址 ) 。 

然而 ， 图 3-10 中 关系 不 存在 BCNF 违 例 ， 事 实 上 ， 根 本 不 存在 非 平凡 FD。 例 如 ， 属 性 
city 并 不 能 由 其 他 四 个 属性 函数 决定 。 因 为 一 个 影星 可 在 不 同城 市 的 同名 街道 拥有 两 个 家 。 
那么 就 存在 两 个 除了 city 分 量 值 不 同 外 其 他 分 量 值 均 相 同 的 元 组 。 因 此 ， 

name street title year 一 city 
不 是 该 关系 上 的 FD。 同 样 ， 五 个 属性 中 的 任 一 个 都 不 能 由 其 他 四 个 属性 函数 决定 ， 这 一 点 留 
给 读者 来 验证 。 因 为 不 存在 非 平凡 FD， 故 唯一 的 一 个 键 由 五 个 属性 共同 组 成 ， 所 以 关系 中 不 
存在 BCNF 违 例 。 日 


3.6.2 多 值 依赖 的 定义 
多 值 依赖 〈 常 缩写 为 MYD) 是 指 在 关系 R 中 ， 当 给 定 某 个 属性 集合 的 值 时 ， 存 在 另外 一 
组 属性 集合 ， 该 组 属性 的 值 与 关系 中 所 有 其 他 属性 的 值 独立 。 精 确 地 说 ， 若 给 定 R 中 属于 4 的 
各 属性 的 值 ， 存 在 一 个 属性 集 8， 其 中 属性 的 值 独立 于 R 中 既 不 属于 A 也 不 属于 B 的 属性 集合 的 
值 ， 则 称 MVD 
AiAs* A —— BiB,… Bn 


在 R 中 成 立 。 更 准确 的 说 法 是 ， 若 要 MVD 成 立 ， 则 
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对 于 R 中 每 个 在 所 有 A 属性 上 一 致 的 元 组 对 :hu， 能 在 R 中 找到 满足 下 列 条 件 的 元 组 v: 

1. 在 4 属性 上 的 取 值 与 和 x 相同 ， 

2. 在 8 属性 上 的 取 值 与 相同; 

3. 在 R 中 不 属于 A 和 8B 的 所 有 其 他 属性 上 的 取 值 与 4 相同 。 
注意 ， 若 将 hu 交换 ， 同 样 能 使 用 这 个 规则 推出 有 第 四 个 元 组 w 存 在 ， 它 在 8B 属性 上 的 取 值 与 4 
相同 ， 而 在 其 他 属性 上 的 取 值 与 相同 。 结 果 是 ， 对 于 任 一 组 给 定 的 4 值 ，B8 和 其 他 属性 值 的 各 
种 组 合 出 现在 不 同 元 组 中 。 图 3-11 给 出 了 当 MVD 存 在 时 ，v 如 何 与 和 wu 相 关 。 这 里 ，A 和 B 没 有 
必要 连续 出 现 。 

通常 ， 可 以 假设 MVD 中 的 A 和 B (左边 和 右边 ) 不 相交 。 然 而 对 于 FD ， 如 果 和 希望 的 话 ， 
人 允许 把 4 中 的 某 些 属性 添加 到 右边 。 


| 1 
A's 一 Pm 一 B's 一 we 其 他 一 上 
1 1 1 | 





图 3-11 多 值 依赖 确保 了 v 的 存在 
例 3.29 例 3.28 给 出 了 一 个 MVD， 用 符号 表示 是 : 


Dame — street city 
也 就 是 说 ， 对 于 每 个 影星 的 姓名 ， 地 址 集 与 影星 所 演 的 每 部 电影 都 联合 出 现 。 下 面 举例 说 明 
怎样 应 用 MVD 的 定义 ， 考 虑 图 3-10 中 第 一 个 和 第 四 个 元 组 : 


name street city title year 
C. Fisher | 123 Maple St. | Hollywood | Star Wars 1977 
C. Fisher | 5 Locust Ln. Malibu Empire Strikes Back | 1980 


设 上 图 中 的 第 一 个 元 组 为 :{， 第 二 个 元 组 为 x， 那 么 根据 MVD，R 中 必然 存在 一 个 name 为 
C. Fisher,，street 和 city 与 元 组 1 取 值 相同 ， 而 其 他 属性 〈tit1e 和 year) 与 元 组 x 取 值 相同 的 元 
组 。 确 实 存 在 这 么 一 个 元 组 ， 即 图 3-10 中 的 第 三 个 元 组 。 

类 似 地 ， 可 以 令 ! 为 上 图 中 的 第 二 个 元 组 ， 而 w 为 第 一 个 元 组 。 那 么 根据 这 个 MVD 可 知 ，R 
中 存在 一 个 name 、street 和 city 与 : 取 值 相同 ， 而 name 、tit1e 和 year 与 4 取 值 相同 的 元 组 。 
这 个 元 组 也 确实 存在 ， 即 图 3-10 中 的 第 二 个 元 组 。 口 


3.6.3 多 值 依赖 的 推导 
有 很 多 关于 MVD 的 规则 ， 它 们 与 3.2 节 中 所 给 的 关于 FD 的 规则 相似 。 例 如 ，MVD 遵 循 
。 平 凡 MVD (trivial MVD) ， 如 果 {Bi, Bs,…,B,} C1{Ai,Ah;,…,A,},， 则 MVD 


AtrMs“ A == BB Bs 





在 任何 关系 中 成 立 。 
全 传递 规则 (transitive rule) 9 如 果 关 系 中 存在 4 有 A， 人 A Ee BiB; Re Bn{B B; pe Bn—+—* 
CiC2,… Ce， 则 
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Mr Ay A CC Cs 


也 成 立 。C 的 任何 也 属于 4 的 属性 要 从 右边 除去 。 
另 一 方面 ，MVD 不 遵循 分 解 /结合 规则 中 的 分 解 部 分 ， 下 面 给 出 了 一 个 这 样 的 例子 。 
例 3.30 再 次 考虑 图 3-10， 这 里 存在 MVD: 


name 一 》 street city 


车 把 分 解 规则 应 用 于 该 MVD， 将 会 有 
name — Street 
成 立 。 这 个 MVD 意 味 着 每 个 影星 的 街道 地 址 (street) 独立 于 其 他 属性 ， 其 中 包括 属性 city。 
然而 ， 这 是 错误 的 。 例 如 ， 考 虑 图 3-10 中 的 前 两 个 元 组 ， 根 据 上 述 假想 的 MVD 可 推出 R 中 存 
在 street 相 互 交换 的 元 组 : 
name street city title Year 
C. Fisher | 5 Locust Ln. Hollywood | Star Wars | 1977 
C. Fisher | 123 Maple St. | Malibu Star Wars | 1977 
但 是 这 种 元 组 是 不 存在 的 ， 因 为 street 为 5 Locust Ln. 的 家 是 在 城市 Malibu 中 ， 而 不 是 在 
Hollywood,。 日 
但 是 ， 还 有 一 些 关 于 MVD 的 新 规则 。 
*FD 升 级 (FD promotion) 规则 。 每 个 FD 都 是 MVD。 也 就 是 说 ， 者 A1 4 … A, 一 Bl B，… 
Bm 成 立 ， 则 A1A2… 4 一 一 B Ba… Bn 也 成 并 。 
为 了 说 明 这 条 规则 成 立 的 理由 ,假设 在 关系 R 上 存在 FD 
AiAs*… An — Bi Ba Bo 


并 且 假 设 :fHu 是 R 中 在 4 上 取 值 相同 的 元 组 ,为 了 证 明 MVD 4 4 Ahi 一 一 Bi1B，… Bn 成 立 ， 
需要 证 明 R 也 包含 元 组 v， 它 与 和 4 在 4 上 的 取 值 相同 ， 直上 装束 信和 闻 、， 与 4 在 其 他 
属性 上 的 取 值 相同 。 但 是 v 可 能 是 wx， 那么 4 与 fu 在 4 上 的 取 值 肯定 相同 ， 这 由 上 面 的 假 
设 可 得 。 由 于 FD Ai 4 hs 一 B1B;… Bw 成 立 ， 这 就 确保 了 u 与 在 8 上 的 取 值 相同 。 当 然 u 
与 其 自身 在 其 他 属性 上 的 取 值 相同 。 因 此 ， 当 FD 成 立时 ， ri he 

。 互 补 规则 pa rule ) 。 和 AiA;… 4 一 一 BiB;…B,， 则 
R 上 也 存在 4 A2*… A 一 一 C1C ， 甚 中 C 是 R 中 不 属于 4 和 8 的 所 有 其 他 属性 的 集合 。 
也 就 是 说 ， Eee Wuyi 

例 3.31 再 次 考虑 图 3-10 和 其 存在 的 MVD. 


name 一 Street city 


互补 规则 是 说 

name 一 title year 
在 R 上 也 必然 成 立 ， 这 是 因为 title 和 year 是 不 在 第 一 个 MVD 中 出 现 的 属性 。 第 二 个 MVD 直 
观 上 表示 每 个 影星 可 参 演 多 部 电影 ， 且 独立 于 影星 的 地 址 。 口 

右边 是 左边 子 集 的 MVD 是 平凡 MVD， 它 在 任何 关系 上 都 成 立 。 但 是 ， 互 补 规则 的 一 个 有 
趣 的 推论 是 ， 有 一 些 平凡 MVD 看 起 来 不 平 几 。 

。 附加 平凡 MVD (More Trivial MVD'’'s)。 共 关系 R 的 所 有 属性 为 

{Ai, Az, “, As, B1, B23, *…, Bn} 


则 Al A; “> A 2 BiB; ea B 在 R 上 成 立 。 
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为 了 说 明 这 些 平 几 MVD 成 立 的 原由 ， 注 意 ， 如 果 选 取 两 个 在 4, 4;, …, 4 上 一 致 的 元 组 ， 交 换 
其 在 属性 Bi, B;,…, Bn 上 的 分 量 值 ， 那 么 可 以 得 到 两 个 和 原来 相同 的 元 组 ， 虽 然 是 采用 相反 的 顺序 。 


3.6.4 第 四 范式 

在 3.6.1 节 中 发 现 的 由 MVD3 引 起 的 元 余 ， 可 通过 在 分 解 中 使 用 这 些 依赖 来 消除 。 本 市 将 引 
入 一 种 新 的 范式 ， 称 为 “第 四 范式 ”。 在 这 个 范式 中 ， 如 同 消除 所 有 违犯 BCNF 的 FD 一 样 ， 消 
除了 所 有 非 平凡 MVD。 结 果 是 ,分 解 后 的 关系 中 既 不 存在 3.3.1 节 中 讨论 的 由 FD 带 来 的 元 余 ， 
也 不 存在 3.6.1 节 中 讨论 的 由 MVD 带 来 的 元 余 。 

“第 四 范式 ”条 件 本 质 上 是 BCNF 条 件 ， 但 它 应 用 于 MVD 而 非 ED。 正 式 的 定义 是 : 

。 如 果 对 于 R 中 的 每 个 非 平凡 MVD Ai 4 4 一 一 B1B,… Bn，{A14，… 4 都 是 超 键 ， 则 

R 属 于 第 四 范式 (fourth normal form，4NE ) 。 

也 就 是 说 ， 若 一 个 关系 属于 4NF， 则 每 个 非 平凡 MVD 实际 上 都 是 左边 为 超 键 的 FD。 注 

意 ， 键 和 超 键 概念 只 是 基于 FD， 添 加 MVD 不 会 改变 “ 键 ” 的 定义 。 

例 3.32 图 3-10 中 的 关系 违反 了 4NF 条 件 。 例 如 

name 一 》 street city 
是 一 个 非 平凡 MVD， 但 其 中 的 name 不 是 超 键 。 事 实 上 ， 这 个 关系 仅 有 的 键 是 所 有 属性 的 集合 。 口 

第 四 范式 事实 上 是 广义 的 BCNF。 回 想 3.6.3 节 中 提 到 的 每 个 FD 都 是 MVD。 因 此 ， 每 个 
BCNF 违 例 也 同时 是 4NF 违 例 。 换 言 之 ， 每 个 属于 4NF 的 关系 也 都 属于 BCNF。 

然而 ， 存 在 一 些 属于 BCNF 但 不 属于 4NF 的 关系 。 图 3-10 是 一 个 很 好 的 例子 。 这 个 关系 仅 
有 的 键 是 所 有 属性 的 集合 ， 从 而 不 存在 非 平 几 FD。 因 此 它 肯 定 属于 BCNF。 但是， 正如 在 例 
3.32 中 看 到 的 那样 ， 它 不 属于 4NF。 


3.6.5 分 解 为 第 四 范式 
4NF 分 解 算 法 与 BCNF 分 解 算法 非常 类 似 。 
分 解 为 第 四 范式 
输入 : 关系 Rae， 其 上 的 FD 和 MVD 集 合 为 So。 
输出 : 由 Ro 分 解 出 的 关系 集合 ， 其 中 每 个 关系 均 属 于 4NE。 分 解 具 有 无 损 连 接 性 质 。 
方法 : 依次 执行 下 列 步骤 ， 令 R= Ro，5S = So: 
1. 在 R 中 找 出 一 个 4NF 违 例 ， 记 为 A1 A3… A 一 一 Bi1B，… Bs， 其 中 {Ai1, A2, …, A,} 不 是 超 
键 。 注 意 这 个 MVD 可 以 是 S 中 的 一 个 真 的 MVD， 也 可 以 源 自 S 中 对 应 的 FD 4 As… 4 一 Bi B， 
… Bs， 这 是 因为 每 个 FD 都 是 MVD。 如 果 不 存在 ， 返 回 ，R 自 身 就 是 一 个 合适 的 分 解 。 
2. 如 果 存 在 这 样 的 4NF 和 违例 ， 则 将 含有 该 4NF 违 例 的 关系 尺 的 模式 分 解 为 两 个 模式 : 
a) Ri， 其 模式 是 A 和 B。 
b) R,， 其 模式 是 A 以 及 R 中 所 有 不 属于 A 和 B 的 其 他 属性 。 
3. 找 出 在 RI 和 Rs 上 成 立 的 FD 和 MVD (3.7 节 将 解释 在 一 般 情况 下 如 何 完成 这 项 任务 ,但 
依赖 的 “投影 ”经 常 是 很 直截了当 的 )。 根 据 投影 后 的 依赖 递归 地 分 解 Ri 和 R，。 
例 3.34 继续 考虑 例 3.32， 可 以 观察 到 
name 一 street city 
是 一 个 4NF 违 例 。 由 上 面 的 分 解 规则 可 知 ， 应 把 含有 五 个 属性 的 模式 用 两 个 模式 来 代替 ， 其 
中 一 个 模式 只 含有 上 面 依赖 中 的 三 个 属性 , 而 另 一 个 模式 含有 name 和 不 在 MVD 中 出 现 的 属性 。 
这 些 属性 是 tit1e 和 year， 于 是 分 解 得 到 的 两 个 模式 为 
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{fname，street，city} 
{name, title, year} 


因为 在 这 两 个 模式 中 都 不 存在 非 平凡 多 值 (或 函数 ) 依赖 ， 所 以 它们 都 属于 4NF。 注 意 ,， 在 
模式 为 {name ，street，city} 的 关系 中 ,，MVD 


name 一 street city 


是 平凡 的 ， 因 为 它 包 含 了 所 有 的 属性 。 同 样 ， 在 模式 为 {name，tit1e，year} 的 关系 中 ，MVD 
name 一 title year 
也 是 平凡 的 。 假 如 分 解 出 的 某 一 个 或 两 个 关系 不 属于 4NFE， 则 还 要 对 其 作 进 一 步 的 分 解 。 口 
和 BCNF 分 解 一 样 ， 每 步 分 解 后 所 得 关系 模式 中 的 属性 个 数 都 严格 少 于 原始 关系 的 属性 个 
数 。 因 此 ， 最 后 肯定 能 得 到 不 需要 继续 分 解 的 模式 ， 也 就 是 说 ， 它 们 属于 4NF。 此 外 ， 这 也 
说 明了 3.4.1 节 中 给 出 的 分 解 方法 对 于 MVD 同 样 适用 。 根 据 MVD 4 4，… A 一 一 Bl1B，… Bn 分 
解 一 个 关系 时 ， 这 个 依赖 足以 证 明 可 以 从 分 解 后 的 关系 中 重 构 原始 关系 。 
3.7 节 将 给 出 一 个 算法 ， 通 过 它 可 以 验证 MVD 用 于 4NF 分 解 的 正确 性 ， 同 时 也 证 明 其 分 解 
包含 无 损 连 接 。 在 那 一 节 中 ， 还 将 花费 较 多 时 间 论 述 如 何 将 MVD 投 影 到 分 解 后 的 关系 上 。 当 
要 决定 是 否 需要 进一步 分 解 时 ， 依 赖 投影 是 必需 的 。 


3.6.6 范式 间 的 联系 

如 前 所 述 ，4NF 缆 涵 BCNFE， 同 样 BCNE 列 洱 3NF。 图 3-12 给 出 了 满足 这 三 个 范式 的 关系 模 
式 ( 包 括 依赖 ) 集 合 之 间 的 关系 。 也 就 是 说 ， 若 含有 特定 依赖 的 关系 属于 4NE， 则 它 也 属于 
BCNF 和 3NF。 若 含有 特定 依赖 的 关系 属于 BCNF， 则 它 也 属于 3NF。 


比较 这 些 范式 的 另 一 种 方法 是 ， 比 较 分 解 到 各 范式 的 关系 的 性 质 。 图 3-13 的 表 中 给 
对 这 几 种 范式 性 质 的 总 结 。 即 BCNEF (当然 也 包括 4NF) ae 
但 只 有 4NF 才 能 消除 由 非 平凡 MVD (不 是 FD) 带 来 的 附加 元 余 。 通 常 3NF 就 足以 消除 这 些 元 
余 ， 但 仍然 存在 它 不 能 消除 的 例子 。 总 是 选择 分 解 到 3NF， 是 因为 这 样 做 能 保持 FD， 即 在 分 
解 后 的 关系 中 仍 存在 ED (虽然 在 本 书 中 没有 讨论 相应 的 算法 )。BCNF 不 能 保证 依赖 保持 性 质 。 
虽然 在 一 些 典 型 的 例子 中 能 够 保持 MVD， 但 是 没有 一 个 范式 能 保证 这 种 MVD 的 保持 性 质 。 





BCNF 关 系 






MVD 风 W075 | 再 | 再 | 是 
| 保持 FD | 是 | 否 | 和 否 | 







| 
图 3-12 4NF 线 涵 BCNF，BCNF 缠 涵 3NF 图 3-13 范式 及 其 分 解 的 性 质 
3.6.7 习题 





习题 3.6.1 假设 关系 R(A, B, C) 中 存在 MVD 4 一 一 B。 若 R 的 当前 实例 中 含有 元 组 (a, bi, c1)，(a, ba, C2) 
和 (a, bs, ca)， 那 么 R 中 必然 还 存在 哪些 其 他 的 元 组 ? 

习题 3.6.2 ”假设 有 一 个 记录 了 人 的 姓名 、 社 会 保险 号 和 生日 的 关系 。 同 时 该 关系 还 记录 了 他 们 每 个 孩 
子 的 姓名 、 社 会 保险 号 、 生 日 以 及 他 们 拥有 的 汽车 的 车 牌号 和 厂家 。 更 精确 地 说 ， 该 关系 的 元 组 是 : 
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(n,s,b,cn,cs,cb,as,am) 


其 中 
1.4 是 人 的 姓名 ，s 是 其 社会 保险 号 。 
2.b 是 n 的 生日 。 
3. cn 是 "的 某 个 孩子 的 名 字 。 
4.cs 是 cn 的 社会 保险 号 。 
5.cb 是 cn 的 生日 。 
6. 45 是 ?的 某 部 汽车 的 车 牌号 。 
7. am 是 车 牌号 为 as 的 汽车 的 生产 厂家 。 
对 这 个 关系 : 
a) 指出 其 含有 的 函数 依赖 和 多 值 依赖 。 
b) 将 其 分 解 到 4NF。 
习题 3.6.3 对 于 下 面 的 各 个 关系 模式 和 依赖 
a) R(4A. B,C,D)， 存在 MVD 4 一 一 B 和 4 一 一 C。 
b) R(A. B,C,D)， 存在 MVD A 一 一 B 和 B 一 一 CD，。 
c) R(A, B,C,D)， 存 在 MVD 4B 一 一 C 和 FD B 一 DD。 
d) R(A, B, C.D,E)， 存在 MVD 4 一 一 B 和 AB 一 一 C， 以 及 FD 4 一 D 和 AB 一 E。 
分 别 回 答 下 面 问题 : 
D 指出 所 有 的 4NF 违 例 。 
ii) 把 关系 分 解 为 多 个 属于 4NF 的 关系 。 
习题 3.6.4 非 形式 地 证 明 为 什么 在 例 3.28 中 希望 五 个 属性 中 的 任 一 个 属性 都 不 能 由 其 他 四 个 属性 函数 决定 。 


3.7 MVD 的 发 现 算法 


与 FD 的 推论 相 比 ，MVD 的 推论 以 及 MVD 和 FD 的 联合 推论 要 困难 得 多 。 对 于 FD， 可 以 根 
据 算法 3.7 来 判断 一 个 FD 是 否 能 由 给 定 的 FD 集 推断 。 本 节 将 首次 证 明 闭 包 算 法 和 3.4.2 节 中 的 
chase 算 法 本 质 上 是 相同 的 。 通 过 扩展 chase 的 思想 ， 可 以 像 处 理 FD 一 样 来 处 理 MVD。 一 且 适 
当地 使 用 这 个 工具 ， 就 能 够 解决 有 关 MVD 和 FD 的 所 有 有 待 解决 的 问题 ， 例 如 判断 一 个 MVD 
是 否 能 由 给 定 的 依赖 推断 ， 以 及 如 何 投影 MVD 和 FD 到 分 解 的 关系 上 。 


3.7.1 闭 包 和 chase 

3.2.4 节 已 经 说 明了 如 何 计算 属性 集合 X 的 闭 包 X+， 即 所 有 函数 依赖 于 X 的 属性 集合 。 在 那 
种 方式 下 ， 通 过 计算 X 关 于 FD 的 闭 包 并 观察 7 是 否 包含 于 该 闭 包 X*+， 来 判断 FD X 一 7 是 否 能 由 
给 定 的 FD 集合 fF 推断 。 可 以 将 闭 包 看 作 chase 的 一 个 变 体 ， 但 其 中 的 初始 图 例 和 目标 条 件 不 同 
于 3.42 御 。 

假设 初始 图 例 包含 两 行 。 它 们 在 属性 集 X 上 一 致 ， 而 在 其 他 所 有 属性 上 均 不 一 致 。 若 使 用 
F 中 的 FD 在 图 例 上 执行 chase 过 程 ， 将 正好 等 同 那 些 属于 X+ 一 X 列 的 字母 。 因 此 ， 判 断 X 一 7 是 
否 可 由 F 推 断 的 基于 chase 的 方法 可 以 总 结 如 下 : 

1. 初始 图 例 包 含 两 行 ， 它 们 仅 在 属性 集 X 上 一 致 。 

2. 使 用 F 中 的 FD 在 图 例 上 执行 chase 过 程 。 

3. 若 最 终 的 图 例 在 属于 Y 的 所 有 列 上 都 一 致 ， 则 X 一 了 7 成立 ， 否则， 不 成 立 。 

例 3.35 再 次 考虑 例 3.8， 其 中 关系 R(A, B,C, D, E) 上 的 FD 为 AB 一 C、BC 一 AD,， DD 一 EE 
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和 CF 一 8。 我 们 检验 48 一 D 是 否 成 立 。 初 始 图 例如 下 : 
A | B | clID | E | F 


a|lblecldlel 
a |b|lc ld |e|f 


由 AB 一 C 可 知 cl = cz 即 用 ci 代替 c>。 结 果 图 例 为 ; 
4 | BICIDIEIF 


a b C1 di el n 
a b Cl d2 €2 fo 


接着 ， 由 BC 一 4D 可知 di = d;; 由 D 一 E 可 知 e1 = ea。 此 时 ， 图 例 为 : 


a b Cl di el fo 


这 时 已 经 无 法 继续 下 去 了 。 由 于 两 个 元 组 在 D 列 上 上 一致， 因而 可 知 48 一 D 可 以 从 给 定 的 
FD 集 推断 。 口 


3.7.2 将 chase 扩 展 到 MVD 

使 用 chase 的 FD 推导 方法 也 同样 可 以 用 来 推导 MVD。 推 导 FD 时 ， 面 对 的 问题 是 两 个 可 能 
不 相等 的 值 在 事实 上 是 否 一 定 相 同 。 当 使 用 FD X 一 7 时 ， 需 要 在 图 例 中 找到 两 个 在 X 的 所 有 
列 上 一 致 的 行 ， 然 后 强制 等 同 所 属于 Y 列 的 字母 。 

然而 ，MVD 并 没有 指出 哪些 字母 是 等 同 的 。 相 反 ，X 一 一 了 Y 指 出， 如果 在 图 例 中 找到 两 
个 在 X 上 一 致 的 行 ， 那么 可 以 通过 交换 它们 中 属于 Y 的 那些 属性 的 值 来 构造 两 个 新 元 组 ， 且 这 
两 个 元 组 必定 属于 原 关 系 ， 因 此 也 必然 在 图 例 中 。 同 理 ， 如 果 要 从 给 定 的 FPD 和 MVD 集中 推导 
出 MVD X 一 一 Y， 则 初始 图 例 要 包含 两 个 在 X 上 一 致 但 在 所 有 其 他 属性 上 均 不 一 致 的 行 。 使 
用 给 定 的 FD 来 等 同 字 母 ， 使 用 给 定 的 MVD 来 交换 已 有 的 两 行 中 某 些 属性 的 值 ， 以 便 在 图 例 中 
加 入 新 的 行 。 如 果 在 图 例 中 发 现 了 这 样 的 一 个 原始 元 组 ， 它 的 分 量 值 被 另 一 个 原始 元 组 所 替 
代 ， 那 么 就 推导 出 了 目标 MVD。 

在 这 个 更 为 复杂 的 chase 过 程 中 ， 有 一 点 需要 小 心 。 由 于 等 同 字 母 会 导致 一 些 字母 被 另 一 ， 
些 所 替代 ， 故 可 能 不 知道 已 经 创建 了 一 个 想 要 的 元 组 ， 原 因 是 某 些 原始 字母 可 能 已 被 其 他 字 
母 所 替代 。 为 避免 这 个 问题 ， 最 简单 的 方法 是 初始 化 定义 目标 元 组 ， 并 永 不 改变 它 。 也 就 是 
说 ， 令 目标 行 的 每 个 分 量 均 为 不 带 下 标的 字母 。 开 始 时 ， 令 图 例 中 与 X 一 一 Y 对 应 的 两 个 原始 
行 中 所 有 属于 X 的 分 量 均 为 不 带 下 标的 字母 ， 第 一 行 中 所 有 属于 Y 的 分 量 也 均 为 不 带 下 标的 字 
母 ， 而 第 二 行 中 所 有 不 属于 X 和 Y 的 分 量 为 不 带 下 标的 字母 。 在 两 行 中 的 其 他 位 置 填 入 新 的 字 
母 ， 每 个 只 出 现 一 次 。 当 要 等 同 带 下 标的 字母 和 不 带 下 标的 字母 时 ， 和 3.4.2 节 中 一 样 ， 总 是 
用 不 带 下 标的 字母 来 替代 带 下 标的 字母 。 然 后 ， 执 行 chase 过 程 时 ， 只 需要 观察 是 否 有 所 有 分 
量 均 为 不 带 下 标的 字母 的 行 出 现在 图 例 中 。 

例 3.36 假设 关系 R(4, B,C, D) 上 的 给 定 依赖 为 4 一 B 和 B 一 一 C。 需 要 证 明 4 一 一 C 在 R 
上 成 立 。 表 示 4 一 一 C 的 初始 两 行 图 例 为 : 


4 B|ICID 


albllc di 
a lb lcsld 
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注意 ， 目 标 行 是 (a, b, c, 四。 图 例 中 的 两 行 在 4 列 上 均 为 不 带 下 标的 字母 ， 第 一 行 在 C 列 上 
的 字母 不 带 下 标 ， 而 第 二 行 在 其 余 列 上 的 字母 不 带 下 标 。 
首先 根据 FD 4 一 8 导出 b= b1。 使 用 不 带 下 标的 字母 b 来 替代 字母 bp:。 图 例 变 为 : 
4 | B | C | 也 
alb le ld 
a |lblecld 
接 下 来 ， 由 于 两 行 在 8B 列 上 一 致 ， 故 使 用 MVD 8 一 一 C。 通 过 交换 C 列 得 到 两 个 新 行 ， 并 
添加 到 图 例 中 。 从 而 ， 图 例 变 为 : 


现在 ， 有 一 行 的 所 有 分 量 均 为 不 带 下 标的 字母 ， 因 此 证 明了 A 一 一 C 在 R 上 成 立 。 需 要 注意 图 
例 操作 是 如 何 给 出 了 4 一 一 C 成 立 的 证 明 。 证 明 如 下 :“ 给 定 R 的 两 个 在 4 上 一 致 的 元 组 ， 则 由 
于 4 一 B， 它 们 在 8 上 也 必定 一 致 。 因 为 它们 在 8 上 一 致 ， 故 可 根据 8 一 一 C， 交 换 它们 在 C 上 
的 分 量 ， 所 得 的 元 组 也 必定 属于 R。 因 此 ， 如 果 R 的 两 个 元 组 在 4 上 一 致 ， 则 交换 它们 在 C 上 的 
分 量 所 得 的 元 组 也 属于 R， 即 A 一 一 C。 口 

例 3.37 有 一 个 关于 FD 和 MVD 的 令 人 吃惊 的 规则 :只 要 存在 MVD X 一 一 了 和 任意 一 个 右 
边 为 Z 的 子 集 (不 必 是 真子 集 ， 记 为 Z) 的 FED， 便 有 X 一 Z。 可 以 使 用 chase 过 程 来 证 明 这 个 规 
则 的 一 个 简单 的 例子 。 给 定 关系 R(4, B, C,D)， 其 上 有 MVD 4 一 一 BC 和 FD D 一 C， 需 要 证 
明 4 一 C。 

由 于 要 证 明 的 是 一 个 FD， 所 以 不 需要 担心 目标 元 组 是 不 带 下 标的 这 一 点 。 初 始 的 两 个 元 
组 只 需要 在 4 上 一 致 ， 并 在 所 有 其 他 列 上 均 不 一 致 即 可 。 例 如 : 


目标 是 要 证 明 c = c2。 
因为 这 两 行 只 在 4 上 一 致 ， 所 以 目前 只 能 使 用 MVD A 一 一 BC。 交 换 这 两 行 的 B 列 和 C 列 ， 
产生 两 个 新 行 ， 加 入 图 例 后 得 到 ; 


现在 有 两 行 在 D 上 一 致 ， 故 可 使 用 FD D 一 C。 例 如 ， 第 一 行 和 第 三 行 含 有 相同 的 D 值 一 一 di， 
故 可 使 用 FD 推导 出 c1 = c。 这 正 是 要 证 明 的 目标 ， 因 此 证 明了 A4 一 C。 新 的 图 例 为 : 
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使 用 给 定 的 依赖 已 经 无 法 再 做 出 任何 改变 了 。 但 这 无 关 紧 要 ， 因 为 已 经 证 明了 所 需要 的 
结论 。 日 


3.7.3 chase 为 何 对 MVD 有 效 

问题 的 本 质 和 本 书 在 前 面 已 经 给 出 的 一 样 。chase 的 每 一 个 步骤 ， 无 论 它 是 等 同 字母 还 是 
产生 新 行 ， 都 真实 反映 了 由 该 步骤 中 使 用 的 FD 或 MVD 所 证 明 的 关系 R 中 的 元 组 。 因 此 ，chase 
的 每 个 肯定 性 的 结果 总 是 能 够 证 明 对 应 的 FD 或 MVD 在 R 上 成 立 。 

当 chase 以 失败 结束 时 ， 即 没有 产生 目标 行 (对 于 MVD) 或 所 期 望 的 等 同 的 字母 (对 于 
FD)， 最 终 的 图 例 就 是 一 个 反例 。 它 满足 所 有 给 定 的 依赖 ， 否 则 不 可 能 再 做 出 改变 。 但 它 不 
满足 试图 证 明 的 依赖 。 

当 仅 使 用 FD 来 执行 chase 时 ， 有 一 个 问题 不 会 出 现 。 由 于 针对 MVD 的 chase 会 向 图 例 中 添 
加 行 ， 因 此 如 何 知道 chase 过 程 何 时 终结 ? 能 否 一 直 添 加 新 行 却 达 不 到 目标 ， 但 又 不 能 保证 再 
做 若干 步 后 就 能 达到 目标 ? 幸运 的 是 ， 上 述 情况 不 会 发 生 。 原 因 是 chase 过 程 从 来 不 会 创建 新 
的 字母 。 开 始 时 ，k 列 中 的 每 一 列 都 至 多 有 两 个 字母 ， 后 来 产生 的 所 有 行 在 某 列 上 的 分 量 都 必 
然 是 该 列 的 两 个 字母 中 的 一 个 。 因 此 ， 图 例 中 行 的 数量 不 可 能 超过 2*:， 其 中 k 是 列 数 。 针 对 
MVD 的 chase 可 能 需要 指数 时 间 ， 但 它 不 可 能 永 不 停止 。 


3.7.4 投影 MVD 

推导 MVD 是 为 了 对 关系 进行 级 联 分 解 ， 以 得 到 4NF 关 系 。 因 此 ， 需 要 能 够 将 给 定 的 依赖 
投影 到 第 一 步 分 解 所 产生 的 两 个 关系 模式 上 。 只 有 如 此 ， 才 能 知道 它们 是 否 属 于 4NF 或 者 是 
否 需要 进一步 分 解 。 

最 坏 情 况 下 ， 需 要 在 每 个 分 解 得 到 的 关系 上 检验 所 有 可 能 的 FED 和 MVYD。chase 检 验 被 应 
用 到 原始 关系 的 全 部 属性 集 上 。 然 而 ， 一 个 MVD 的 目标 是 在 图 例 中 产生 一 行 ， 该 行 在 分 解 得 
到 的 某 个 关系 的 所 有 属性 上 的 值 均 为 不 带 下 标的 字母 ， 而 在 其 他 属性 上 的 值 可 以 是 任何 字母 。 
FD 的 目标 也 一 样 : 等 同 给 定 列 中 的 字母 。 

例 3.38 ”假设 要 分 解 关 系 R(4, B8, C, D, 已 ) ， 并 设 其 分 解 的 关系 之 一 是 S(4, B, C)。 假 定 
MVD 4 一 一 CD 在 R 上 成 立 。 则 这 个 MVD 是 否 强 涵 某 些 在 S 上 成 立 的 依赖 ? 若 认 为 4 一 一 C 在 
5 上 成 立 ， 当 然 还 有 4 一 一 B (由 互补 规则 可 知 )。 下 面 验证 4 一 一 C 在 S 上 成 立 。 初 始 图 例 为 : 

A|IB | Cc|DIE 


a lbilece |di |er 
alb lc ld le 


根据 R 上 的 MVD 4 一 一 CD， 交 换 这 两 行 的 C 和 DD 分量 ， 得 到 两 个 新 行 : 
A4|B3|cC|DIs 


a lbhlic di | ei 
a|lb lcld le 
a |bilcld le 
a lb lc ldile 
注意 ， 最 后 一 行 在 S 的 所 有 属性 ( 即 A4、B 和 C) 上 的 值 均 为 不 带 下 标的 字母 。 这 就 足以 证 明 ， 
4 一 一 C 在 S 上 成 立 。 口 
通常 ， 在 投影 后 的 关系 上 彻底 地 并 不 需要 完全 寻找 FD 和 MVD。 下面 是 一 些 简化 : 
1. 平 凡 FD 和 MVD 肯 定 不 需要 检验 。 
2. 对 于 FD， 由 于 存在 合并 规则 ， 故 只 需要 寻找 右边 为 单个 属性 的 FD。 
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3. 如 果 一 个 FD 或 MVD 的 左边 不 包含 任何 给 定 依赖 的 左边 ， 则 它 肯 定 不 成 立 ， 这 是 因为 在 
这 种 情况 下 ，chase 检 验 无 法 开始 。 也 就 是 说 ， 使 用 给 定 的 依赖 无 法 改变 用 于 chase 检 验 的 两 个 
原始 行 。 


3.7.5 习题 
习题 3.7.1 考虑 关系 R(4A, B, C,D,E)， 其 上 存在 依赖 4 一 一 BC，B 一 D 和 C 一 一 E。 使 用 chase 检 验 
证 明 下 列 依赖 在 R 上 是 否 成 立 ? 
al4 一 也。 
b) A =—==D, 
OA BE; 
d) AO—— E。 

! 习 题 3.7.2 ”如果 将 习题 3.7.1 中 的 关系 R 投 影 到 8(4, C,E)， 那 么 有 哪些 非 平 几 FD 和 MVD 在 S 上 成 立 ? 

! 习 题 3.7.3 ”证 明 下 列 MVD 规 则 。 对 于 每 种 情况 ， 均 可 参照 chase 检 验 来 展开 证 明 ， 但 由 于 这 些 依赖 所 在 
的 关系 中 ， 属 性 集 是 任意 的 集合 XxX、Y、Z 以 及 其 他 不 知名 的 属性 ， 因 而 必须 考虑 比例 题 更 加 一 般 化 的 
情况 。 

a) 联合 规则 (union rule)。X、Y、2 都 是 属性 集合 ， 若 X 一 一 Y 和 IX 一 一 Z 成 立 ， 则 X 一 一 (ZU 习 成 立 。 

b) 交集 规则 (intersection rule)。X、Y、2 都 是 属性 集合 ， 若 X 一 一 7 了 和 X 一 一 2 成立， 则 X 一 一 (Y 门 刁 
成 立 。 

c) 差异 规则 (difference rule)。X、Y、2Z 都 是 属性 集合 ， 若 XX 一 一 YX 一 一 Z 成 立 ， 则 X 一 一 (7 一 刀 
成 立 。 

d) 移 除 被 左边 和 右边 共享 的 属性 集合 (removing attributes shared by left and right side)。 若 X 一 一 了 
成 立 ， 则 一 一 (7 一 加 成 立 。 

! 习 题 3.7.4 给 出 一 个 反例 ， 说 明 为 什么 下 列 MVD 规 则 不 正确 。 提 示 : 使 用 chase 检 验 并 观察 结果 。 

a) 若 4 一 一 BC， 则 4 一 一 B。 

b) 若 4 一 一 B， 则 A 一 B。 

c) 车 AB 一 一 C， 则 4 一 一 C。 


3.8 小 结 


。 函 数 依赖 《Functional Dependency): 函数 依赖 表示 : 若 关 系 中 的 两 个 元 组 在 某 些 属 性 
集合 上 一 致 ， 则 它们 在 另 一 些 属性 集合 上 也 必须 一 致 。 

。 关 系 的 键 (Key of a Relation); 关系 的 超 键 (superkey) 是 可 以 函数 决定 该 关系 所 有 属 
性 的 属性 集合 。 若 一 个 超 键 不 存在 任何 能 函数 决定 所 有 属性 的 真子 集 ， 则 它 是 键 。 

。 还 数 依 赖 的 推论 (Reasoning About Functional Dependency): 存在 一 组 规则 ， 根 据 这 些 
规则 可 以 推出 在 满足 给 定 FD 集 的 任意 关系 实例 中 ，FD X 一 4 成 立 。 证 明 FD X 一 4 成 立 
的 方法 是 计算 X 的 闭 包 ， 使 用 给 定 FD 来 扩展 X， 直 到 它 包含 4。 

。FD 集 合 的 最 小 基本 集 (Minimal Basis for a set of FD's) : 对 于 任何 FD 和 集合， 至 少 有 一 个 
最 小 基本 和 集 , 它 是 一 个 和 原 FD 集 合 等 价 的 FD 集合 ( 即 两 者 相互 蕴涵 )， 右边 是 单个 属性 ， 
而 且 从 中 去 除 任 一 个 FD 或 从 左边 去 除 任 一 个 属性 后 都 不 再 和 原 集合 等 价 。 

。Boyce-Codd 范 式 (Boyce-Codd Normal Form): 若 关 系 中 的 非 平 几 FD 指明 某 个 超 键 函 数 
决定 一 个 或 其 他 多 个 属性 ， 则 该 关系 属于 BCNF。BCNF 的 主要 优点 是 它 消除 了 由 FD 引 
起 的 元 余 。 

。 无 损 连 接 分 解 (Lossless-Join Decomposition); 分 解 的 一 个 有 用 性 质 是 可 以 通过 将 分 解 
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得 到 的 关系 进行 自然 连接 ， 来 准确 地 恢复 原始 关系 。 任 何 一 个 分 解 都 包含 了 原 关系 的 所 
有 元 组 ， 但 若 分 解 选择 不 当 ， 则 连接 结果 会 包含 不 属于 原 关 系 的 元 组 。 

。 依 赖 保持 分 解 (Dependency-Preserving Decomposition ) :分解 的 另 一 个 很 好 的 性 质 是 可 
以 通过 检查 在 分 解 得 到 的 关系 上 的 FD 来 证 明 原 关系 上 的 所 有 函数 依赖 。 

。 第 三 范式 (Third Normal Form) ， 有 了 时， 分解 到 BCNF 时 无 法 具有 依赖 保持 性 质 。3NF 是 
一 种 比 BCNF 限 制 较 松 的 范式 ， 它 允许 FD X 一 4 (其 中 X 可 以 不 是 超 键 ,而 4 是 键 的 成 
员 ) 的 存在 。3NF 不 保证 消除 所 有 由 FD3 引 起 的 元 余 ， 但 大 多 数 情 况 下 可 以 消除 。 

*。chase: 可 以 通过 创建 一 个 图 例 (一 些 表示 原 关系 元 组 的 行 的 集合 ) 来 判断 一 个 分 解 是 
否 具 有 无 损 连 接 性 质 。 通 过 给 定 的 FD 来 推断 某 些 字母 对 必定 相同 来 对 图 例 进 行 chase。 
分 解 对 于 给 定 的 FD 集 合 是 无 损 的 ， 当 且 仅 当 chase 过 程 导致 图 例 中 出 现 了 一 个 和 之 前 假 
定 的 元 组 相同 的 行 ， 该 元 组 属于 将 投影 后 的 各 关系 进行 连接 而 得 到 的 关系 。 

。3NF 综 合算 法 (Synthesis Algorithm for 3NF) : 若 将 给 定 的 FD 集合 的 一 个 最 小 基本 集中 
的 每 个 FD 转化 为 一 个 关系 ， 并 在 必要 时 添加 一 个 关系 的 键 ， 则 结果 是 一 个 具有 无 损 连 
接 和 依赖 保持 性 质 的 3NF 分 解 。 

“多 值 依 赖 (Multivalued Dependency): 多 值 依赖 表示 关系 中 有 两 个 属性 集 的 值 以 所 有 可 
能 的 组 合 方式 出 现 。 

。 第 四 范式 (Fourth Normal Form) ; 关系 中 的 MVD 也 可 能 引起 元 余 。4NF 同 BCNF 相 似 ， 
但 也 禁止 存在 左边 不 是 超 键 的 非 平 几 MVD。 一 个 关系 可 以 无 损 地 分 解 为 4NF 关 系 集合 。 
。MVD 的 推论 (Reasoning About MVD's) : 通过 chase 过 程 可 以 从 给 定 的 MVD 和 FD 集中 
推出 其 他 MVD 和 FD。 开 始 时 用 一 个 两 行 的 图 例 来 表示 试图 证 明 的 依赖 。 然 后 通过 等 同 

字母 来 应 用 FD， 并 且 通 过 向 图 例 中 添加 新 行 并 交换 合适 的 分 量 来 应 用 MVD。 
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第 4 章 ”高 级 数据 库 模型 


考虑 一 个 新 数据 库 〈 如 本 书 的 电影 数据 库 ) 如 何 建立 的 过 程 。 图 4-1 介 绍 了 一 个 过 程 。 该 
过 程 从 设计 阶段 开始 ， 提 出 并 回答 存储 什么 信息 ， 信 息 元 素 之 间 如 何 关联 ， 假 定 有 什么 样 的 
约束 ， 诸 如 键 或 者 参考 的 完整 性 ， 等 等 。 这 个 阶段 可 能 持续 很 长 一 段 时 间 ， 其 间 需 要 评价 不 
同 的 可 选 方案 ， 协 调 不 同意 见 。 图 4-1 中 从 思考 转变 成 为 高 级 设计 就 是 这 个 阶段 。 


思考 高 级 设计 一 一 > 库 模式 DBMS 


图 4-1 数据 库 建 模 和 实现 过 程 


由 于 绝 大 部 分 的 商业 数据 库 系统 使 用 关系 模型 ， 所 以 在 此 假设 设计 阶段 也 应 该 使 用 这 个 
模型 。 尽 管 如 此 ， 实 际 上 通常 很 容易 以 一 个 高 级 模型 开始 然后 将 设计 转换 到 关系 模型 上 。 这 
么 做 的 主要 原因 是 关系 模型 只 有 一 个 概念 一 一 关系 ， 而 没有 多 个 补充 的 概念 ， 使 其 更 接近 现 
实 世界 情况 。 关 系 模型 中 概念 简单 是 这 个 模型 一 个 很 大 的 活力 ， 尤 其 是 它 带 来 数据 库 操作 的 
有 效 实现 。 然 而 当 进行 一 个 最 初 的 设计 时 这 恰恰 又 成 为 了 缺点 ， 这 就 是 为 什么 在 开始 时 要 使 
用 一 个 高 级 设计 模型 的 原因 。 

有 几 种 用 符号 表达 设计 的 方法 。 最 早 的 方法 是 “实体 一 联系 图 ”"， 这 部 分 将 会 在 4.1 节 中 讲 
述 。 最 近 的 趋势 是 使 用 UML (统一 建 模 语言 )， 它 最 早 是 用 在 面向 对 象 软件 项 目 设计 中 的 一 种 
新 符号 标记 方法 ， 这 种 方法 也 可 以 描述 数据 库 模 式 。4.7 节 将 介绍 这 个 模型 。 最 后 ， 在 4.9 节 中 
介绍 ODL (对 象 描述 语言 ) ， 它 将 数据 库 描述 为 类 与 对 象 的 集合 。 

图 4-1 中 的 下 一 个 阶段 是 从 高 级 设计 转变 到 一 个 关系 数据 库 模式 设计 。 这 个 阶段 只 有 在 确 
定 了 高 级 设计 时 才能 够 进行 。 不 管 使 用 哪 种 高 级 模型 ， 都 有 相应 的 方法 将 高 级 设计 转换 成 为 
一 个 关系 数据 库 模 式 ， 并 且 可 以 在 一 个 常规 的 DBMS 中 运行 。4.5 节 和 4.6 节 讨论 E/R 图 到 关系 
数据 库 模式 的 转换 。4.8 节 讨论 UML 到 关系 数据 库 模 式 的 转换 ，4.10 匡 讨论 ODL 到 关系 数据 库 
模式 的 转换 。 


4.1 E/R 模 型 


在 实体 一 联系 (entity-relationship model， 或 E/R 模型 ) 模型 中 ， 数 据 的 结构 用 图 形 化 方 
式 表 示 ， 即 “实体 一 联系 图 "， 用 到 以 下 三 个 主要 的 元 素 类 型 

1. 实体 集 

2. 属性 

3. 联系 

下 面 将 依次 介绍 这 三 个 元 素 。 


4.1.1 实体 集 
实体 (entity) 是 某 种 抽象 对 象 ， 相 似 实体 的 集合 形成 实体 集 (entity set) 。 从 面向 对 象 程 
序 设 计 的 意义 上 讲 ， 实 体 和 “对 象 ” 有 某 种 相似 性 。 同 样 ， 实 体 集 和 对 象 类 也 有 相似 性 。 但 
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是 ，E/R 模 型 是 个 静态 的 概念 ， 它 只 包括 数据 的 结构 但 不 包括 对 数据 的 操作 。 所 以 ， 实 体 集 中 
` 会 像 类 那样 有 方法 (method) 出 现 。 

例 4.1 考虑 电影 数据 库 的 设计 例子 。 每 个 电影 是 个 实体 ， 所 有 电影 的 集合 构成 一 个 实体 
集 。 同 样 ， 影 星 也 是 实体 ， 影 星 的 集合 也 是 一 个 实体 集 。 电 影 公司 是 另 一 个 实体 ， 电 影 公司 
集合 是 出 现在 例子 中 的 第 三 个 实体 集 。 口 


4.1.2 属性 

实体 集 有 相关 的 属性 (attribute) ， 属 性 是 这 个 实体 集中 实体 所 具有 的 性 质 。 比 如 ， 实 体 
集 Movies 可 能 有 title (电影 名 ) 或 length ( 片 长 ) 等 属性 。 在 例子 中 如 果实 体 集 Movies 的 属性 
与 关系 Movies 的 属性 相似 不 应 该 令 你 感到 惊奇 。 因 为 尽管 在 最 后 的 设计 中 不 是 每 一 个 关系 都 
是 由 实体 集 来 产生 ， 但 是 通常 实体 集 用 关系 来 实现 。 


E/R 模 型 的 变化 


在 E/R 模 型 的 某 些 版 本 中 ， 属 性 的 类 型 可 以 是 : 
1. 原子 的 ， 如 本 书 所 用 版 本 。 


2. “结构 ”， 如 在 C 语 言 中 ， 或 具有 固定 数目 的 原子 分 量 的 元 组 。 

3. 一 种 类 型 的 一 组 值 : 或 原子 类 型 ， 或 “结构 ”类 型 。 

例如 ， 在 这 样 一 个 模型 中 ， 一 个 属性 的 类 型 可 以 是 一 个 成 对 (pair) 数据 集 ， 每 个 数据 
对 都 是 由 一 个 整 型 和 一 个 字符 串 组 成 。 





在 本 书 的 E/R 模 型 版 本 中 ， 假 定 属性 都 是 原子 类 型 ， 比 如 字符 串 、 整 数 、 实 数 。 但 是 这 个 
模型 有 一 些 其 他 变化 ， 其 中 属性 可 以 有 限定 的 结构 ， 如 上 面 “E/R 模 型 的 变化 ” 框 中 所 示 。 


4.1.3 联系 

联系 (relationship) 是 两 个 或 多 个 实体 集 的 连接 。 例 如 ，Movies 和 Stars 是 两 个 实体 集 ， 
Stars-in 就 是 连接 Movies= 和 Stars 的 联系 。 其 目的 是 如 果 影 星 实 体 s 出 现在 电影 实体 m 中 ，m 和 ;就 
被 Stars-in 联 系 在 一 起 。 二 元 联系 是 目前 为 止 最 一 般 的 联系 类 型 ， 它 联系 两 个 实体 集 ，E/R 模 
型 允许 联系 连接 任意 数目 的 实体 集 。4.1.7 节 将 讨论 这 种 多 路 联系 。 


4.1.4 实体 一 联系 图 

E/R 图 (E/R diagram) 是 描述 实体 集 、 属 性 和 联系 的 图 示 。 图 中 每 种 元 素 都 用 节点 表示 ， 
并 且 使 用 特殊 形状 的 节点 来 标识 特定 的 类 别 ， 

。 用 和 矩形 表示 实体 集 

。 用 椭圆 表示 属性 

*。 用 菱形 表示 联系 

用 边 来 连接 实体 集 与 它 的 属性 ， 同 样 也 用 边 来 连接 联系 与 它 的 实体 集 。 

例 4.2 图 4-2 是 一 个 ER 图 ， 表 示 一 个 简单 的 电影 数据 库 。 实 体 集 是 Movies、Stars 和 Studios。 

Movies 实 体 集 有 四 个 通常 的 属性 title、year、length 和 genre。 男 外 两 个 实体 集 Stars 和 
Studios 正 好 有 两 个 相同 的 属性 : name 和 address， 都 有 其 明显 的 意义 。 图 中 还 有 两 个 联系 : 

1. Stars-in 是 电影 及 其 影星 的 联系 。 因 此 也 是 影星 及 其 所 参 演 的 电影 的 联系 。 

2. Owns 是 电影 及 其 所 属 电影 公司 的 联系 。 图 4-2 中 指向 实体 集 Studios 的 箭头 暗示 每 部 电 
影 只 属于 唯一 的 电影 公司 。4.1.6 节 将 讨论 这 样 的 唯一 性 约束 。 回 
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图 4-2 电影 数据 库 的 实体 一 联系 图 


4.1.5 E/R 图 实例 

E/R 图 是 一 种 描述 数据 库 模 式 (schema) 的 符号 。 可 以 设想 ， 一 个 用 E/R 图 描述 的 数据 库 
包含 特定 的 数据 ， 称 为 数据 库 实 例 (instance)。 由 于 数据 库 并 不 是 由 E/R 模 型 实现 ， 而 只 是 设 
计 ， 那 么 这 个 实例 并 不 像 关系 的 实例 那样 存在 于 一 个 DBMS 中 。 尽 管 这 样 ， 它 通常 对 于 设计 
中 的 数据 库 的 可 视 化 很 有 帮助 ， 就 像 它 真 的 存在 一 样 。 

对 每 个 实体 集 ， 数 据 库 实例 有 一 个 特定 的 有 限 实体 集合 。 实 体 集中 的 每 个 实体 对 每 个 属 
性 都 有 特定 的 值 。 可 以 设想 连接 n 个 实体 集 E1, ;3,…, E, 的 联系 R 的 一 个 实例 由 元 组 (ei, ea, …, en) 
的 有 限 集 构成 ， 其 中 每 个 ei 都 是 从 实体 集 E; 的 当前 实例 中 选 出 。 每 个 这 样 的 元 组 被 认为 是 由 联 
系 R“ 连 接 ” 起 来 。 

这 个 元 组 集 叫做 R 的 联系 集 (relationship set) 。 把 联系 集 直观 地 表示 为 一 张 表 或 关系 很 有 
帮助 。 尽 管 如 此 ， 一 个 联系 集 的 元 组 并 不 是 一 个 真正 的 关系 元 组 ， 因 为 它们 的 分 量 是 实体 而 
不 是 原始 的 类 型 ， 诸 如 字符 串 或 者 整 型 。 表 的 列 头 是 包含 在 联系 集中 的 实体 集 名 ， 表 的 行 是 
被 联系 起 来 的 一 串 实体 集 。 尽 管 这 样 ， 当 把 联系 转换 成 关系 时 ， 这 个 关系 与 之 前 的 联系 集 并 
不 一 样 。 

例 4.3 联系 Stars-in 的 一 个 实例 可 由 下 表 表 示 : 

Movies | Stars 
Basic Instinct | Sharon Stone 


Total Recall Arnold Schwarzenegger 
Total Recall Sharon Stone 


联系 集 的 成 员 是 表 的 行 。 例 如 ，(Basic Instinct，Sharon Stone) 是 联系 Stars-in 的 当前 实 
例 的 联系 集中 的 一 个 元 组 。 口 


4.1.6 二 元 E/R 联 系 的 多 样 性 
总 体 来 说 ， 二 元 联系 能 将 一 个 实体 集中 任意 数目 的 实体 与 另 一 个 实体 集中 任意 数目 的 实 
体 相连 接 。 可 是 ， 通 常 在 联系 的 多 样 性 上 会 有 所 约束 。 假 设 R 连 接 实 体 集 E 和 Ff， 那么 : 
“如 果 E 中 的 任 一 实体 可 以 通过 R 与 F 中 的 至 多 一 个 实体 联系 ， 那 么 说 R 是 从 E 到 F 的 多 对 一 
(many-one) 联系 。 当 从 E 到 F 是 一 种 多 对 一 的 联系 时 ，F 中 的 每 一 个 实体 都 能 与 E 中 的 许 
多 实体 联系 。 类 似 地 ， 如 果 F 中 任 一 实体 可 通过 R 与 E 中 至 多 一 个 实体 联系 ， 则 说 R 是 从 F 
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到 有 的 多 对 一 联系 。( 或 者 说 是 从 有 到 天 的 一 对 多 联系 。) 

。 如 果 R 既 是 从 E 到 F 的 多 对 一 联系 ， 又 是 从 F 到 E 的 多 对 一 联系 ， 那 么 R 就 是 一 对 一 (one- 

one) 联系 。 在 一 对 一 联系 中 ， 实 体 集中 的 一 个 实体 最 多 可 以 和 另 一 实体 集中 的 一 个 实 

体 联 系 。 

。 如 果 R 既 不 是 从 E 到 FF 的 多 对 一 联系 ， 也 不 是 从 FF 到 E 的 多 对 一 联系 ， 则 说 R 是 多 对 多 

(many-many) 联系 。 

正如 在 例 4.2 中 提 到 的 ， 箭 头 可 用 来 表示 BR 图 中 联系 的 多 样 性 。 如 果 从 实体 集 E 到 是 多 
对 一 联系 ， 就 把 箭头 指向 上 。 箭 头 表 明 实 体 集 E 中 每 个 实体 与 实体 集 F 中 的 最 多 一 个 实体 联系 。 
除非 还 有 一 个 箭头 指向 E， 否 则 Ff 中 的 每 个 实体 可 以 与 E 中 的 多 个 实体 联系 。 

例 4.4 ”根据 这 个 原则 ， 如 果实 体 集 E 和 F 是 一 对 一 联系 ， 就 把 第 头 同时 指向 E 和 FF。 例如 ， 
图 4-3 中 有 两 个 实体 集 Studios 和 Presidents， 二 者 通过 Runs 联 系 (属性 省 略 )。 假 设 一 个 经 理 只 
管理 一 家 电影 公司 ,一 家 电影 公司 只 有 一 个 经 理 ， 那 么 这 种 联系 就 是 一 对 一 的 ， 可 以 用 两 个 
箭头 分 别 指向 两 个 实体 。 

记 住 一 个 箭头 是 表示 “最 多 一 个 "， 但 它 es> 
并 不 保证 箭头 指向 的 实体 集中 的 实体 存在 。 所 图 4.3 一 个 一 对 一 联系 
以 ， 在 图 4-3 中 ， 你 可 以 认为 一 个 经 理 一 定 会 
和 某 个 电影 公司 有 联系 ， 否则 他 怎么 会 成 为 主管 ? 但 是 ， 电 影 公司 可 能 会 在 某 一 特定 时 期 没 
有 经 理 ， 所 以 从 Runs 指 向 Presidents 的 箭头 含义 是 “最 多 一 个 ”， 而 不 是 “只 有 一 个 ”。4.3.3 节 
中 将 对 此 作 进 一 步 讨 论 。 口 


4.1.7 多 路 联系 

E/R 模 型 使 人 们 能 够 更 方便 地 描述 多 于 两 个 实体 集 之 间 的 联系 。 实 际 上 ， 三 重 (三 路 ) 或 
更 多 路 的 联系 很 少 ， 但 是 有 时 这 些 联系 对 于 反映 事物 的 真实 情况 很 有 必要 。E/R 图 中 的 多 路 联 
系 是 由 从 联系 闭 形 到 它 涉及 的 每 个 实体 集 的 连 线 表 示 。 

例 4.5 ”图 4-4 有 一 个 Contracts 联 系 ， 包 括 电 影 公 司 、 影 星 和 电影 三 个 实体 集 。 这 种 联系 表 
明 电 影 公司 和 某 一 影星 签约 ， 让 他 出 演 一 部 电影 。 一 般 而 言 ，E/R 联 系 的 值 可 以 被 当 作 一 个 联 
系 元 组 集 ， 元 组 的 组 成 分 量 是 加 入 到 联系 中 的 实体 ， 在 4.1.5 中 已 经 谈 过 这 点 。 所 以 ， 
Contracts 联 系 可 以 由 三 元 组 (studio，star，movie) 描述 。 


不 同 联系 类 型 的 含义 
应 当 注 意 ， 多 对 一 联系 是 多 对 多 联系 的 一 种 特殊 情况 ， 而 一 对 一 联系 是 多 对 一 联系 的 


一 种 特例 。 也 就 是 说 ， 多 对 一 联系 的 任何 有 用 的 特性 也 同样 适用 于 一 对 一 联系 。 例 如 ， 表 
示 多 对 一 的 数据 结构 也 可 以 用 来 表示 一 对 一 联系 ， 但 它 可 能 不 适用 于 多 对 多 联系 。 


在 多 路 联系 中 ， 指 向 实体 集 有 的 箭头 表示 : 如 果 从 该 联系 的 其 他 每 个 实体 集中 选择 一 个 实 





体 ， 它 们 至 多 与 E 中 的 一 个 实体 联系 (注意 ， 
这 种 规则 泛 化 了 多 对 一 的 二 元 联系 的 标识 )。 
非 正 式 地 ， 可 以 认为 是 右边 为 E 和 联系 中 所 有 
其 他 实体 集 在 左边 的 函数 依赖 。 

在 图 4-4 中 ， 有 一 个 箭头 指向 Studios， 表 明 
对 于 某 一 影星 和 电影 来 说 ， 只 有 一 个 电影 公司 ， 图 4-4 一 个 三 路 联系 
该 影星 与 它 签订 了 合同 出 演 此 电影 。 然 而 ， 不 存在 指向 实体 集 Stars 和 Movies 的 箭头 。 一 个 电影 公 


Movies 
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司 可 以 和 一 部 电影 的 几 个 影星 签约 ， 一 个 影星 可 以 和 一 个 电影 公司 签约 出 演 一 部 或 多 部 电影 。 口 


4.1.8 联系 中 的 角色 

在 一 个 联系 中 一 个 实体 集 可 能 出 现 两 次 或 多 次 。 如 果 是 这 样 ， 根 据 实体 集 在 联系 中 出 现 
的 次 数 ， 把 联系 与 实体 集 用 同样 多 的 连 线 连 起 来 。 每 一 条 连 向 实体 集 的 连 线 代表 实体 集 在 联 
系 中 扮演 的 不 同 角色 (role)。 因 而 人 们 给 实体 集 和 联系 之 间 的 边 命名 ， 称 之 为 “角色 ”。 


多 路 联系 中 箭头 符号 的 限制 
当 一 个 联系 连接 三 个 或 更 多 的 实体 集 时 ， 就 没有 足够 多 的 有 第 头 或 没有 策 头 的 线 来 表 
示 这 些 情况 。 因 此 ， 不 能 用 第 头 描述 每 种 可 能 出 现 的 情况 。 例 如 ， 在 图 14 中 ， 因 为 只 有 


电影 公司 制作 一 部 电影 ， 所 以 ,仅仅 电影 公司 有 制作 电影 的 功能 ， 而 不 是 影星 和 电影 二 者 
的 联合 。 然 而 ， 已 有 的 符号 并 不 能 把 这 种 情况 与 三 路 联系 区 分 开 来 ， 在 三 路 联系 的 情况 下 ， 
被 箭头 指向 的 实体 集 是 其 他 两 个 实体 集 的 函数 。 为 了 处 理 所 有 可 能 的 情况 ， 必 须 给 出 涉及 
联系 实体 集 的 函数 依赖 集 。 


例 4.6 图 4-5 给 出 了 一 个 由 实体 集 Movies 和 它 本 身 组 成 的 联系 Sequel-of。 每 个 联系 连接 两 
部 电影 ， 其 中 之 一 是 另 一 部 的 续集 。 为 了 在 一 种 联系 中 区 别 两 部 电影 ， 一 条 线 标 以 Original， 
男 一 条 标 以 Sequel， 分 别 代表 最 初 的 电影 及 续集 。 假 设 一 部 电影 有 许多 部 续集 ， 但 对 于 每 部 
续集 来 说 只 存在 一 部 最 初 的 电影 。 所 以 Sequel 电 影 与 Original 电 影 之 间 是 多 对 一 联系 ， 如 同 图 
4-5 的 E/R 图 中 用 箭头 标明 的 那样 。 口 

例 4.7 最 后 给 出 一 个 包括 多 路 联系 和 拥有 多 重 角色 的 实体 集 例子 。 图 4-6 中 是 比例 4.5 中 
介绍 的 Contracts 联 系 更 为 复杂 的 一 个 版 本 。 现 在 ，Contracts 联 系 包括 两 个 电影 公司 、 一 个 影 
星 和 一 部 电影 。 其 含义 是 ， 一 家 跟 某 个 影星 签约 〈 通 常 并 非 仅 为 某 部 特定 影片 ) 的 电影 公司 ， 
可 能 与 另 一 家 电影 公司 签约 以 同意 该 影星 出 演 某 部 电影 。 因 而 ， 此 联系 被 描述 为 四 元 组 的 形 
式 : (studio1，studio2，star，movie) ， 表 示 studio2 与 studio1 签 约 以 借用 studio1 的 影星 star 出 
演 电 影 movie。 









Original 
《<> 记 Studio Producing 
of star studio 
Sequel 
图 4-5 带 有 角色 的 联系 图 4-6 一 个 四 路 联系 


图 4-6 中 可 以 看 和 到， 箭头 指向 Studios 的 两 种 角色 一 一 影星 的 “拥有 者 ”和 此 电影 的 电影 公 
司 。 但 是 ， 没 有 箭头 指向 Star 或 Movies。 其 理由 如 下 : 给 定 一 个 影星 、 一 部 电影 和 制作 这 部 电 
影 的 电影 公司 ， 只 有 一 家 电影 公司 “拥有 ”此 影星 《假定 一 个 影星 只 与 一 家 电影 公司 签约 ) 。 
类 似 地 一 部 电影 只 由 一 家 电影 公司 出 品 ， 因 此 给 定 一 个 影星 、 一 部 电影 和 此 影星 的 签约 电影 
公司 ， 就 可 以 唯一 决定 出 电影 出 品 公司 。 注 意 ， 在 这 两 种 情况 下 ， 都 只 需要 知道 其 他 实体 中 
的 一 个 就 可 以 唯一 决定 一 个 实体 一 一 例如 ， 只 需要 知道 电影 就 可 以 唯一 确定 电影 出 品 公司 
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但 这 并 不 改变 多 路 联系 的 多 样 性 。 

没有 箭头 指向 Stars 或 Movies。 给 定 一 个 影星 、 影 星 签 约 的 电影 公司 和 电影 出 品 公司 ， 可 
能 会 有 几 个 不 同 的 合同 以 允许 该 影星 出 演 几 部 电影 。 因 此 ， 一 个 联系 四 元 组 的 另外 三 个 部 分 
并 不 足以 唯一 决定 一 部 电影 。 类 似 地 ， 电 影 出 品 公司 可 能 与 男 外 一 些 电影 公司 签约 以 利用 它 
们 的 多 个 影星 出 演 同一 部 影片 。 因 此 ， 影 星 并 不 能 由 其 他 三 个 分 量 唯一 决定 。 口 






图 4-7 一 个 有 属性 的 联系 


4.1.9 联系 的 属性 

有 时 把 属性 与 联系 相连 ， 较 之 与 联系 中 的 任何 一 个 实体 集 相 连 更 加 方便 ， 甚 至 是 至 关 重 
要 。 例 如 ， 图 4-4 中 的 联系 代表 影星 和 电影 公司 就 一 部 电影 签署 的 合同 。 人 们 可 能 会 希望 从 
合同 中 记录 下 片酬 。 但 是 不 能 把 它 与 影星 联系 起 来 ， 因 为 影星 可 能 在 不 同 的 电影 中 片酬 不 同 。 
类 似 地 ， 把 片酬 与 电影 公司 (他们 会 付 不 同 的 片酬 给 不 同 的 影星 ) 或 电影 (不 同 的 影星 在 同 
一 部 电影 中 的 片酬 不 同 ) 联系 起 来 也 是 毫 无 意义 的 。 

但 是 ， 把 片酬 与 Contracts 联 系 集中 的 三 元 组 (star，movie，studio) 连接 起 来 是 合适 的 。 
图 4-7 是 在 图 4-4 的 基础 上 增加 了 一 些 属性 。 此 处 联系 有 了 属性 salary， 而 在 图 4-2 中 显示 了 有 同 
样 属性 的 实体 集 。 

通常 联系 上 可 以 放置 一 个 或 者 更 多 的 属性 。 这 些 属性 的 值 是 由 联系 集中 对 应 关系 的 整个 
元 组 函数 决定 。 在 某 些 情况 下 ， 属 性 可 以 由 相关 的 实体 集 的 子 集 来 决定 ， 但 不 是 单独 的 实体 
集 (或 者 比 在 那个 实体 集 上 放置 一 个 属性 具有 更 多 的 意义 )。 例 如 ， 在 图 4-7 中 ，salary 实 际 上 
是 由 movie 和 star 实 体 决定 ， 因 为 studio 实 体 是 由 movie 实 体 决 定 。 

其 实 并 没有 必要 为 联系 添加 属性 。 人 们 可 以 创建 一 个 新 的 实体 集 来 代替 它 ， 新 实体 集 的 
属性 就 是 原来 属于 联系 的 属性 。 如 果 把 这 个 实体 集 包含 在 联系 中 ， 就 可 以 省 去 联系 本 身 的 属 
性 。 但 是 联系 上 带 属性 是 个 有 用 的 习惯 ， 在 适当 的 场合 会 继续 使 用 它 。 

例 4.8 ”修改 图 4-7 中 的 E/R 图 ， 原 图 中 的 联系 Contracts 有 属性 salary。 创 建 一 个 有 属性 salary 
的 实体 集 Salaries。Salaries 变 成 了 联系 Contracts 的 第 四 个 实体 集 。 全 图 显示 在 图 4-8 中 。 

注意 在 图 4-8 中 有 一 个 箭头 指向 Salaries 实 体 集 。 这 个 箭头 是 适当 的 ， 因 为 salary 是 由 所 有 
其 他 对 应 于 那个 联系 的 实体 集 决 定 。 通 常 ， 当 把 联系 中 的 属性 转换 到 一 个 额外 的 实体 集 上 时 ， 
要 放置 一 个 箭头 指向 那个 实体 集 。 口 


日 这 里 , 已 将 其 恢复 成 例 4.5 中 的 三 路 合同 的 符号 ， 而 不 是 例 4.7 中 的 四 路 联系 。 
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图 4-8 把 属性 转换 成 实体 集 


4.1.10 多 路 联系 到 二 元 联系 的 转换 

有 一 些 数 据 模型 约束 联系 必须 是 二 元 的 ， 如 UML (4.7 节 ) 和 ODL (4.9 节 )。 虽 然 E/R 模 型 
不 限制 联系 是 二 元 联系 ,但 是 有 必要 看 一 下 连接 多 个 实体 集 的 联系 是 怎样 转化 为 一 组 二 元 的 多 
对 一 联系 。 为 此 ， 先 介绍 一 种 新 的 实体 集 ， 它 的 实体 被 看 作 是 多 路 联系 的 联系 集 的 元 组 。 这 个 
实体 集 叫 做 连接 (connecting) 实体 集 。 然 后 ， 针 对 组 成 原来 多 路 联系 元 组 的 每 个 实体 集 ， 从 
连接 实体 集中 引入 多 对 一 联系 。 如 果 一 个 实体 集 扮演 多 个 角色 ， 那 么 每 个 角色 就 是 一 个 联系 。 

例 4.9 ”图 4-6 中 的 四 路 联系 Contracts 可 以 被 一 个 也 叫 Contracts 的 实体 集 代 替 。 如 图 4-9 所 
示 ， 实 体 集 Contracts (合同 ) 参与 了 四 个 联系 。 如 果 联 系 Contracts 的 联系 集 有 一 个 四 元 组 
(studio1，studio2，star，movie)， 那 么 实体 集 Contracts 就 有 一 个 实体 e。 这 个 实体 由 联系 Star- 
of 连 向 实体 集 Stars 中 的 实体 star。 由 联系 Movie-of 连 向 Movies 中 的 movie 实 体 。Studios 中 的 实 
体 studio1 和 studio2 分 别 由 联系 Studio-of-star 和 Producing-studio 连 接 。 


图 4-9 用 实体 集 和 二 元 联系 代替 多 路 联系 
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注意 ， 虽 然 图 4-9 中 的 其 他 实体 都 有 隐 含 属性 ， 但 是 假定 实体 集 Contracts 设 有 属性 。 然 而 ， 
Contracts 也 有 可 能 加 上 属性 ， 比 如 签约 日 期 。 DD 


4.1.11 E/R 模 型 中 的 子 类 

经 常 地 ， 一 个 实体 集中 含有 一 些 实体 ， 这 些 实体 拥有 集合 中 其 他 实体 成 员 没 有 的 特殊 性 
质 。 如 果 这 种 情况 存在 ， 那 么 ， 定 义 一 些 特例 实体 集 或 子 类 (subclass) 就 很 有 用。 这 里 每 个 
子 类 有 它 自 己 的 特殊 的 属性 和 /或 联系 。 我 们 用 一 个 被 称 作 isa 的 联系 连接 实体 集 和 它 的 子 类 
(也 就 是 ，“4 是 8” 表 达 了 从 实体 集 4 到 实体 集 8 的 “isa” 联 系 )。 

isa 联 系 是 一 种 特殊 的 联系 ， 为 了 强调 它 与 其 他 联系 不 同 ， 用 一 种 特殊 符号 即 (三 角形 ) 
表示 。 三 角形 的 一 边 与 子 类 相连 ， 与 此 边 相 对 的 一 角 与 父 类 相连 。 尽 管 没 有 标 出 其 一 对 一 联 
系 的 两 个 箭头 ， 但 每 个 isa 联 系 都 是 一 对 一 联系 。 

例 4.10 在 电影 实例 数据 库 中 可 以 存储 的 电影 种 类 有 卡通 片 . 凶 杀 片 等 一 些 特殊 种 类 的 电影 。 
对 每 一 种 电影 ， 都 可 以 定义 Movies 实 体 集 的 子 类 。 例 如 ， 假 定 有 两 个 子 类 : Cartoons 和 Murder- 
Mysteries。 卡 通 片 除了 拥有 所 有 Movies 共 同 的 属性 和 联系 外 ， 还 有 一 个 额外 的 联系 叫 Voices， 它 
给 出 了 不 演 电影 的 配音 影星 的 集合 。 除 卡通 片 外 没有 别 的 电影 有 配音 影星 。 凶 杀 片 的 一 个 附加 
属性 是 weapon。 实 体 集 Movies、Cartoons 和 Mnurder-Mysteries 之 间 的 联系 如 图 4-10 所 示 。 口 


并 列 联系 可 以 不 同 
图 4-9 示 例 了 联系 的 一 个 细节 。 在 实体 集 Contracts 和 Studios 上 ， 有 两 个 不 同 的 联系 ， 
Studio-of-Star 和 Producing-Studio。 人 们 不 能 因此 就 认为 这 些 联系 有 相同 的 联系 集 。 事 实 上 ， 
在 这 种 情况 下 ， 两 种 联系 不 可 能 都 是 与 相同 的 合同 和 相同 的 电影 公司 连接 ， 因 为 如 果 这 样 
的 话 ， 电 影 公司 就 只 能 与 它 本 身 签约 。 
更 一 般 地 ，E/R 图 中 相同 实体 集 的 多 种 联系 并 没有 错 。 在 数据 库 中 ， 这 些 联系 的 实例 一 
般 都 不 同 ， 反映 了 联系 的 不 同意 义 。 





图 4-10 E/R 图 中 的 isa 联 系 


当然 ， 原 则 上 说 ， 由 isa 联 系 连 接 起 来 的 一 组 实体 集 可 以 是 任何 一 种 结构 ， 但 是 在 这 里 是 
把 isa 结 构 约束 为 树 形 结构 ， 即 只 有 一 个 根 (root) 实体 集 (如 图 4-10 中 的 Movies)， 它 是 最 具 
有 概括 性 的 ， 其 他 逐渐 有 具体 化 的 实体 集 就 由 树 形 结构 的 根 向 下 延伸 。 

假设 有 一 个 由 isa 联 系 连 接 的 树 形 实体 集 。 单 个 实体 就 是 由 来 自 于 一 个 或 多 个 这 样 的 实体 
集 的 组 成 部 分 (component) 构成 ， 这 些 组 成 部 分 是 在 包括 根 的 子 树 中 。 也 就 是 说 ， 如 果 一 个 
实体 e 在 实体 集 E 中 有 组 成 部 分 c<，E 在 树 中 的 父 实体 集 是 F， 那 么 e 也 有 F 中 的 组 成 部 分 4。 另 外 ， 
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c 和 d 必 须 在 从 E 到 F 的 isa 联 系 集中 配对 出 现 。e 的 组 成 部 分 有 什么 属性 ， 实 体 e 就 一 定 有 什么 属 
性 ， 它 们 参与 什么 联系 ，e 就 一 定 参与 什么 联系 。 

例 4.11 经 典 的 电影 〈( 既 不 是 卡通 片 也 不 是 凶杀 片 ) 仅 有 一 个 组 成 部 分 在 如 图 4-10 所 示 的 根 
实体 集 Movies 中 。 这 些 实体 只 有 Movies 的 四 个 属性 (图 4-10 中 没有 显示 Movies 的 两 个 联系 一 一 
Stars-in 和 Owns ) 。 


子 类 的 E/R 视 图 
E/R 模 型 中 的 isa 和 面向 对 象 语言 中 的 子 类 有 惊人 的 相似 之 处 。 从 某 种 意义 上 说 ，*isa 


是 把 子 类 与 父 类 联系 起 来 。 但 是 ， 传 统 的 E/R 观 点 与 面向 对 象 方法 仍 有 根本 区 别 ， 在 实体 集 
树 中 实体 被 允许 有 代表 ， 但 对 象 被 认为 只 存在 于 一 个 类 或 子 类 中 。 


在 例 4.11 中 ， 当 讨论 如 何 处 理 电影 Roger Rabbit 时 ， 这 种 区 别 变 得 很 明显 。 运 用 面向 对 
象 方法 ， 需 要 给 这 部 电影 第 四 个 实体 集 : cartoon-murder-mystery， 它 继承 了 Movies、 
Cartoons 和 Murder-Mysteries 的 所 有 属性 和 联系 。 然 而， 在 E/R 模 型 中 ， 只 要 把 Roger Rabbit 
的 所 有 成 分 放 进 Cartoons 和 Murder-Mysteries 实 体 集 中 ， 就 能 获得 第 四 个 子 类 的 作用 。 





一 部 不 是 凶杀 片 的 卡通 片 有 两 个 组 成 部 分 ， 一 个 在 Movies 中 ， 一 个 在 Cartoons 中 。 故 而 它 
的 实体 不 仅 有 Movies 的 四 个 属性 ， 还 有 联系 Voices。 类 似 地 ， 凶 杀 片 的 实体 有 两 个 组 成 部 分 ， 
一 个 在 Movies 中 ， 一 个 在 Murder-Mysteries 中 ， 因 此 有 五 个 属性 ， 包 括 weapon。 

最 后 ， 像 Roger Rabbit 这 样 的 电影 既 属 于 卡通 片 也 属于 凶杀 片 ， 它 在 三 个 实体 集 Movies、 
Cartoons 和 MurderMysteries 中 都 有 组 成 部 分 。 三 个 组 成 部 分 被 isa 联 系 连接 为 一 个 实体 。 这 些 
组 成 部 分 给 予 了 Roger Rabbit 实 体 Movies 的 四 个 属性 和 Murder-Mysteries 的 weapon 属 性 以 及 
Cartoons 的 Voices 联 系 。 回 


4.1.12 习题 
习题 4.1.1 ”为 一 家 银行 设计 一 个 数据 库 ， 包 括 顾客 以 及 他 们 账户 的 信息 。 顾 客 信息 包括 顾客 姓名 、 地 
址 、 电 话 、 社 会 保障 号 ， 账 户 信息 包括 号 码 、 类 型 (如 存款 、 支 票 ) 和 余额 。 另 外 还 需要 记录 拥有 
账户 的 顾客 。 给 出 该 数据 库 的 E/R 图 。 在 适当 的 地 方 夯 上 箭头 ， 以 表示 联系 的 多 样 性 。 
习题 4.1.2” 按 如 下 要 求 修改 习题 4.1.1 的 解决 方法 : 
a) 修改 图 使 一 个 账户 只 有 一 个 顾客 。 
b) 修改 图 使 一 个 顾客 只 有 一 个 账户 。 
!c) 修改 习题 4.1.1 中 的 原 图 ， 使 顾客 可 以 有 多 个 地 址 (街道 、 城 市 、 州 组 成 的 三 元 组 ) 和 多 个 电话 号 
码 。 记 住 E/R 模 型 不 允许 属性 有 非 原子 类 型 ， 如 集合 。 
!d) 进一步 修改 你 的 图 ， 使 顾客 可 以 有 一 组 地 址 ， 每 个 地 址 有 一 组 电话 号 码 。 
习题 4.1.3 ”为 数据 库 设计 E/R 图 ， 该 数据 库 记 录 球 队 、 队 员 和 球迷 的 信息 ， 包 括 : 
。 每 个 球 队 的 名 称 、 队 员 、 队 长 (是 队员 的 一 员 ) 和 队 服 颜色 。 
每 个 队员 的 名 字 。 
每 位 球迷 的 名 字 、 最 喜欢 的 球 队 、 最 喜欢 的 球员 、 最 喜欢 的 颜色 。 
对 于 有 一 些 颜色 不 适合 作为 球 队 的 属性 类 型 ， 你 如 何 避 免 这 些 约束 呢 ? 
习题 4.1.4 ”假设 希望 在 习题 4.1.3 的 模式 上 加 一 个 联系 Led-by， 连 接 两 个 队员 和 一 个 球 队 。 该 联系 集 由 
三 元 组 (playerl1，player2，team) 构成 ， 表 示 player2 当 队长 时 ，playerl 在 此 队 踢 球 。 
a) 画 出 修改 的 E/R 图 。 
b) 用 一 个 新 的 实体 集 和 二 元 联系 替换 这 个 三 元 联系 。 
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!c) 新 的 二 元 联系 是 否 和 原来 的 某 个 联系 相同 ? 注意 这 里 假设 两 个 队员 是 不 同 的 ， 也 就 是 说 ， 队 长 不 
能 自己 领导 自己 。 

习题 4.1.5 ”修改 习题 4.1.3， 为 每 个 队员 记录 他 们 踢 球 的 历史 ， 包 括 为 每 个 球 队 效力 的 开始 日 期 和 结束 
日 期 (如 果 他 们 是 转 会 过 来 的 )。 

! 习 题 4.1.6 用 一 个 实体 集 People 设 计 一 个 家 谱 数 据 库 ， 用 来 记录 关于 人 物 的 信息 包括 他 们 的 名 字 (一 个 
属性 )、 他 们 的 母亲 、 父 亲 和 和 孩子 。 

! 习 题 4.1.7 修改 习题 4.1.6 中 的 “人 物 ” 数 据 库 的 设计 ， 以 包含 下 列 特殊 类 型 的 人 : 

1. 女性 

2. 男性 

3. 为 人 父母 者 

也 许 你 还 想 区 别 其 他 类 型 的 人 ， 请 用 联系 来 连接 适当 的 人 物 的 子 类 。 

习题 4.1.8 另外 一 种 表示 习题 4.1.6 的 信息 的 方法 是 用 三 元 联系 Family，Family 联 系 集中 的 三 元 组 (person， 
mother，father) 分 别 是 一 个 人 和 他 的 母亲 与 父亲 。 当 然 ， 这 三 者 都 是 People 实 体 集中 的 实体 。 
*a) 画 出 该 图 ， 把 箭头 标 在 适当 的 边 上 。 

b) 用 一 个 实体 集 和 一 个 二 元 联系 代替 三 元 联系 Family。 再 次 用 箭头 显示 联系 的 多 样 性 。 

习题 4.1.9 ”为 大 学 注册 设计 一 个 适当 的 数据 库 。 这 个 数据 库 包 含 的 信息 有 学 生 、 系 别 、 教 授 、 课 程 、 
学 生 选 课 情 况 、 教 授 授课 情况 、 学 生成 绩 、 助 教 (助教 也 是 学 生 )、 某 系 开设 的 课程 以 及 任何 你 认为 
合适 的 信息 等 。 这 个 问题 比 上 一 题 的 问题 更 自由 ， 你 需要 对 联系 的 多 样 性 、 合 适 的 类 型 甚至 是 什么 
样 的 信息 需要 表示 等 问题 作 决策 。 

! 习 题 4.1.10 ” 非 正式 地 讲 ， 如 果 反 映 现实 世界 情况 的 两 个 E/R 图 的 实例 之 一 能 从 另 一 个 推出 ， 那 么 说 这 
两 个 E/R 图 包含 相同 的 信息 。 考 虑 图 4-6 的 E/R 图 。 利 用 一 部 电影 必然 只 由 一 家 电影 公司 制作 这 个 事实 ， 
这 个 四 路 联系 可 以 变 为 一 个 三 路 联系 和 一 个 二 元 联系 。 不 利用 四 路 联系 ， 画 出 与 图 4-6 包 含 信息 相同 
的 E/R 图 。 


4.2 设计 原则 


虽然 还 需要 了 解 E/R 模 型 的 更 多 细节 ， 但 是 首先 要 学 习 什么 是 一 个 好 的 设计 ， 什 么 应 当 避 
免 。 在 本 节 ， 将 介绍 一 些 有 用 的 设计 原则 。 


4.2.1 忠实 性 

首要 的 也 是 最 重要 的 ， 设 计 应 当 忠 实 于 应 用 的 具体 要 求 。 也 就 是 说 ， 实 体 集 和 它们 的 属 
性 应 当 反 映 现实 。 你 不 能 把 属性 圆柱 号 (number-of-cylinders) 与 影星 〈Stars) 联系 ， 然 而 却 
可 以 把 它 作为 汽车 的 属性 。 根 据 所 了 解 的 要 建 模 的 那 一 部 分 真实 世界 ， 无 论 设计 哪 一 种 联系 
都 应 当 有 意义 。 

例 4.12 ”如 果 在 Stars 和 Movies 之 间 定 义 联系 Stars-in， 它 应 该 是 一 种 多 对 多 联系 。 原 因 是 
根据 现实 情况 ， 影 星 可 以 在 不 止 一 部 电影 中 出 现 ， 出 演 一 部 电影 的 影星 也 不 止 一 个 。 认 为 
Stars-in 是 任何 方向 的 多 对 一 或 一 对 一 联系 都 是 不 正确 的 。 口 

例 4.13 ” 另 一 方面 ， 有 时 并 不 清楚 现实 世界 要 求 在 E/R 建 模 中 做 什么 。 例 如 ， 思 考 一 下 实 
体 集 Courses 和 Instructors ， 它 们 之 间 有 联系 Teaches。 从 Courses 到 Instructors ，Teaches 是 一 种 
多 对 一 联系 吗 ? 答案 在 于 创建 该 数据 库 的 组 织 的 政策 和 意图 。 有 可 能 学 校 有 这 样 一 个 政策 : 
对 每 一 门 课 只 有 一 个 教师 。 即 使 有 多 位 教师 可 以 教授 某 门 课程 ， 学 校 也 可 能 只 允许 有 一 个 教 
师 的 名 字 列 入 数据 库 中 ， 作 为 这 门 课 的 负责 人 。 上 述 任何 一 种 情况 ， 都 会 使 从 Courses 到 
Instructors 的 联系 Teaches 是 多 对 一 的 。 
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相反 ， 学 校 可 能 有 规律 地 使 用 一 组 教师 ， 并 且 希 望 数 据 库 允 许 几 个 教师 与 同一 门 课程 关联 。 
Teaches 联 系 的 意图 并 不 是 反映 目前 教 这 门 课 的 教师 ， 而 是 那些 曾经 教 过 或 者 能 够 教 这 门 课 的 
人 。 因 此 ， 不 能 简单 地 从 联系 的 名 称 上 做 出 判断 。 在 这 两 种 情况 中 ， 把 Teaches 作 为 多 对 多 联 
系 更 为 恰当 。 口 


4.2.2 避免 元 余 

应 当 小 心 对 每 件 事 只 说 一 次 。 在 E/R 设 计 中 出 现 的 典型 问题 是 3.3 节 讨论 的 关于 宛 余 和 蜡 
常 问题 。 然 而 ， 在 E/R 模 型 中 ， 有 几 个 新 的 机 制 也 会 引起 元 余 和 异常 。 

例如 ， 在 电影 和 电影 公司 之 间 用 了 联系 Owns。 我 们 也 可 以 把 电影 公司 的 名 称 studioName 
选 作 电影 实体 集 的 一 个 属性 。 虽 然 这 样 做 并 不 违反 规定 ， 但 却 危 险 ， 原 因 有 以 下 几 点 : 

1. 一 旦 将 E/R 设 计 转 换 成 一 个 关系 的 (或 者 其 他 类 型 的 ) 具体 实现 时 ， 这 么 做 会 导致 事实 
的 重复 ， 结 果 是 需要 额外 的 空间 来 表达 数据 。 

2. 由 于 可 能 改变 联系 而 不 是 属性 ， 或 者 改变 属性 而 不 是 联系 ， 所 以 存在 一 种 更 新 异常 的 
潜在 可 能 性 。 

在 4.2.4 节 和 4.2.5 节 中 将 更 深入 地 讨论 避免 异常 。 


4.2.3 简单 性 

除非 有 绝对 需要 ， 不 要 在 你 的 设计 中 添加 更 多 成 分 。 

例 4.14 ”假定 用 “电影 所 有 权 ” 来 代替 Movies 和 Studios 之 间 的 有 关 一 部 电影 的 所 有 权 联 
系 。 可 以 再 创建 一 个 实体 集 Holdings， 然 后 用 一 对 一 联系 Represents 表 示 每 部 电影 和 代表 它 的 
所 有 权 之 间 的 关联 。 用 多 对 一 联系 表示 Holdings 到 Studios 之 间 的 关联 ， 如 图 4-11 所 示 。 


Repre— ， 
3 < 


图 4-11 含有 不 必要 实体 集 的 不 好 的 设计 


从 技术 上 来 说 ， 图 4-11 真 实地 反映 了 现实 世界 ， 因 为 可 以 用 联系 Holdings 将 一 部 电影 连 向 
它 的 唯一 拥有 者 。 然 而 ，Holdings 在 这 里 没有 实际 用 途 ， 没 有 它 可 能 更 好 。 它 使 利用 电影 一 
电影 公司 联系 的 程序 变 得 更 复杂 、 浪 费 空间 且 更 容易 犯错 。 口 


4.2.4 选择 正确 的 联系 

实体 集 可 以 用 多 种 联系 连接 起 来 。 但 是 ， 把 每 种 可 能 的 联系 加 到 设计 中 却 经 常 不 是 个 好 
办 法 。 如 果 这 么 做 ， 一 个 联系 连接 起 来 的 实体 对 或 实体 集 可 以 从 一 个 或 多 个 其 他 的 联系 中 导 
出 ， 从 而 会 导致 元 余 、 更 新 异常 和 删除 异常 。 下 面 用 两 个 例子 来 解释 这 个 问题 ， 并 讨论 如 何 
解决 该 问题 。 在 第 一 个 例子 中 ， 多 个 联系 代表 相同 的 信息 ， 第 二 个 例子 中 ， 一 个 联系 可 以 从 
另外 几 个 联系 中 导出 。 

例 4.15 ”首先 再 来 看 一 下 图 4-7， 图 中 电影 、 影 星 和 电影 公司 被 三 路 联系 Contracts 连 接 起 
来 。 这 里 省 略 了 图 4-2 中 的 二 元 联系 Stars-in 和 Owns。 是 否 需 要 在 Movies 和 Stars、Movies 和 
Studios 之 间 分 别 加 上 这 些 联 系 呢 ? 答案 是 :“ 不 知道 ; 这 取决 于 对 问题 中 这 三 个 联系 的 假定 。 

人 们 可 以 从 Contracts 推 出 Stars-in。 如 果 只 在 合同 中 包括 影星 、 电 影 、 电 影 所 属 的 电影 公 
司 的 情况 下 ， 影 星 才 会 在 这 部 电影 中 出 现 ， 那 么 Stars-in 的 确 不 需要 存在 。 观 察 联系 Contracts 
中 的 star-movie-studio 三 元 组 ， 再 把 影星 、 电 影 两 个 成 分 抽出 来 就 可 以 得 到 star-movie 对 了 。 但 
是 ， 如 果 一 个 影星 没有 签 合同 就 可 以 演 电 影 一 一 或 者 更 有 可 能 的 情况 是 在 数据 库 中 没有 已 经 
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知道 的 合同 那么 Stars-in 中 就 可 能 存在 这 样 的 star-movie 对 ， 它 们 不 是 Contracts 中 的 star- 
movie-studio 三 元 组 的 一 部 分 。 这 时 ， 需 要 保留 Stars-in 联 系 。 

类 似 的 情况 也 适用 于 联系 Owns。 如 果 对 于 每 部 电影 ， 都 至 少 有 一 个 内 容 包 含 电影 、 所 属 
电影 公司 、 参 演 影 星 的 合同 ， 就 可 以 不 用 Owns。 但 是 ， 如 果 有 一 家 电影 公司 有 这 样 一 部 电影 ， 
却 没 有 影星 签约 出 演 或 数据 库 中 没有 这 个 合同 ， 就 必须 保留 Owns。 

总 之 ， 不 能 告诉 你 一 个 特定 联系 是 否 多 余 。 你 必须 从 希望 创建 数据 库 的 人 那里 找 出 他 们 需 
要 什么 。 只 有 这 样 ， 你 才能 对 是 否 需要 包括 像 Stars-in 或 Owns 这 样 的 联系 做 出 明智 的 选择 。 口 

例 4.16 现在 ,再 看 一 下 图 4-2。 在 此 图 中 ， 影 星 和 电影 公司 之 间 没 有 联系 。 然 而 可 以 用 
联系 Stars-in 和 Owns， 并 通过 组 合 处 理 它们 来 创建 影星 和 电影 公司 之 间 的 连接 。 就 是 说 ， 一 个 
影星 被 Stars-in 连 向 某 些 电影 ， 那 些 电 影 又 被 Owns 连 向 电影 公司 。 因 此 ， 可 以 说 一 个 影星 被 连 
向 一 些 电影 公司 ， 该 公司 拥有 这 个 影星 参 演 的 电影 。 

如 图 4-12 所 示 ， 在 Stars 和 Studios 之 间 创 建 一 个 联系 Works-for 有 意义 吗 ? 在 知道 更 多 信息 
之 前 还 不 能 判断 。 第 一 ， 这 个 联系 的 意思 是 什么 ? 
如 果 它 是 表示 “该 影星 至 少 出 演 这 个 电影 公司 的 一 
部 电影 "， 那么 可 能 就 没有 理由 把 它 包含 进 这 幅 图 中 ， 
为 这 种 联系 可 以 从 Stars-in 和 Owns 推 出 。 

然而 ， 可 能 有 一 些 不 能 被 连 向 电影 的 连接 所 表达 
的 有 关 为 电影 公司 工作 的 影星 的 其 他 信息 。 那 样 的 话 ， 
直接 连接 影星 和 电影 公司 的 联系 可 能 更 有 用 ， 而 不 是 
元 余 。 另 一 种 选择 是 ， 人 们 可 能 用 一 个 影星 和 电影 公 
司 之 间 的 联系 来 表达 完全 不 同 的 意思 。 如 ， 它 可 能 表 
示 这 个 影星 与 这 个 电影 公司 签约 ， 而 且 在 某 种 意义 上 
跟 任 一 部 电影 没有 任何 联系 。 正 如 在 例 4.7 中 所 说 的 ， 
一 个 影星 虽然 是 与 一 家 电影 公司 签约 ， 但 却 是 为 男 一 家 电影 公司 的 一 部 影片 工作 。 这 样 的 话 ， 
在 新 联系 Works-for 中 的 信息 就 独立 于 联系 Stars-in 和 Owns， 而 且 肯 定 不 是 元 余 。 口 


4.2.5 选择 正确 的 元 素 种 类 

有 时 人 们 可 以 选择 不 同 的 设计 元 素 的 类 型 来 表示 现实 世界 。 很 多 这 样 的 选择 介 于 是 用 属 
性 还 是 用 实体 集 / 联 系 的 结合 之 间 。 一 般 来 说 ， 属 性 比 实体 集 或 联系 都 易于 实现 。 然 而 ， 并 不 
能 把 所 有 的 东西 都 作为 属性 。 

例 4.17 考虑 一 个 具体 的 问题 。 在 图 4-2 中 ， 把 电影 公司 作为 实体 集 是 否 明智 ? 是 否 应 该 
把 电影 公司 的 名 字 和 地 址 作为 电影 的 属性 ， 并 把 实体 集 Studio 除 去 ?这样 做 的 一 个 问题 是 电影 
公司 的 地 址 在 每 一 部 电影 中 重复 。 如 果 修 改 某 部 电影 的 电影 公司 的 地 址 而 在 另 一 部 电影 中 同 
一 个 电影 公司 的 地 址 没有 修改 ， 那 么 就 会 产生 更 新 异常 。 而 如 果 将 某 电影 公司 的 最 后 一 部 电 
影 删 除 ， 那 么 又 会 产生 删除 异常 。 

另 一 方面 ， 如 果 没 有 记录 电影 公司 的 地 址 ， 那 么 把 电影 公司 的 名 字 作 为 电影 的 一 个 属性 并 
没有 坏处 ， 这 种 情况 下 没有 异常 。 因 为 必须 要 通过 某 种 方式 表示 每 部 电影 的 所 有 者 ， 所 以 说 出 
其 名 字 是 一 种 有 效 的 方式 。 因 此 ， 为 每 一 部 电影 说 出 其 电影 公司 名 字 并 不 是 真正 的 元 余 。 ” 口 

通过 对 例 4.17 中 所 观察 到 的 进行 抽象 ， 可 以 给 出 在 哪 种 情况 下 使 用 属性 而 不 是 实体 集 的 条 
件 。 假 设 E 是 个 实体 集 。 如 果 要 把 E 用 一 个 属性 或 几 个 其 他 实体 集 的 属性 代替 ， 必 须 遵 守 下 列 
条 件 : 








图 4-12 在 Stars 和 Studios 之 间 加 一 个 联系 
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1. 所 有 与 BE 有 关 的 联系 都 必须 有 箭头 指向 E。 也 就 是 说 ，E 必 须 是 多 对 一 联系 中 的 “一 ”， 
或 多 路 联系 的 概 化 。 

2. 如 果 E 有 几 个 属性 ， 那 么 必须 没有 属性 依赖 于 其 他 属性 ， 正 如 Studios 中 address 依 赖 于 
name 一 样 。 也 就 是 说 ，E 的 唯一 键 是 它 所 有 的 属性 。 

3. 没有 联系 包含 E 多 次 。 

如 果 这 些 条 件 都 符合 ， 那 么 可 以 这 样 代替 实体 集 E; 

a) 如 果 从 实体 集 F 到 E 有 多 对 一 联系 R， 那 么 删除 R 并 把 E 的 属性 作为 F 的 属性 ， 当 属性 名 与 
F 原 来 的 属性 名 冲突 时 ， 则 重 命名 。 实 际 上 ，F 实 体 把 唯一 的 关联 EF 实体 3 的 名 字 作 为 属性 ， 如 
同 电影 实体 可 以 把 电影 公司 的 名 字 作 为 一 个 属性 一 样 ， 此 时 无 需 考 虑 电影 公司 地 址 。 

b) 如 果 有 多 路 联系 R 的 箭头 指向 忆 ， 把 有 的 属性 作为 R 的 属性 ， 并 删除 从 R 到 无 的 驱 。 一 个 
转换 的 例子 是 用 图 4-8 代 替 原 图 4-7， 在 图 4-8 中 引入 了 一 个 新 实体 集 Salaries， 它 有 一 个 数字 作 
为 唯一 的 属性 。 

例 4.18 考虑 一 下 是 用 多 路 联系 还 是 用 多 个 二 元 联系 的 连接 实体 之 间 进 行 折 中 的 观点 。 图 
4-6 中 影星 、 电 影 和 两 个 电影 公司 之 间 有 四 路 联系 。 在 图 4-9 中 是 机 械 地 把 它 转 换 成 实体 集 
Contracts。 它 是 否 关系 我 们 所 做 的 选择 ? 

如 同 问 题 所 表述 的 ， 两 者 都 是 合适 的 。 然 而 ， 如 果 把 问题 稍稍 变化 ， 那 么 就 不 得 不 选择 
连接 实体 集 。 假 设 合同 包括 一 个 影星 、 一 部 电影 和 电影 公司 的 任意 集合 。 情 况 比 图 4-6 中 的 复 
杂 ， 在 那里 两 个 电影 公司 扮演 两 个 角色 。 而 此 时 ， 在 合同 里 可 以 有 任意 数目 的 电影 公司 ， 可 
能 一 个 是 制作 ， 一 个 做 特效 ， 一 个 管 改行， 等 等 。 因 此 不 能 给 电影 公司 分 配角 色 。 

看 起 来 ， 联 系 Contracts 的 联系 集 必 须 包 括 如 下 形式 的 三 元 组 : (star，movie ，set-of- 
studios) ， 而 且 ， 联 系 Contracts 本 身 不 仅 包 含 通常 的 Stars 和 Movies 实 体 集 ， 而 且 还 有 一 个 新 的 
实体 集 ， 它 的 实体 是 电影 公司 的 集合 。 虽 然 这 种 方法 是 可 能 的 ， 但 是 把 电影 集合 看 作 基本 实 
体 显 得 并 不 自然 ， 因 此 不 建议 这 样 做 。 

一 个 更 好 的 方法 是 把 合同 看 作为 一 个 实体 集 。 如 图 4-9， 合 同 实体 连接 影星 、 电 影 和 一 组 
电影 公司 ， 但 是 现在 必须 对 电影 公司 的 数目 不 作 约 束 。 因 此 ， 如 果 合 同 是 真正 的 “连接 ” 实 
体 集 ， 合 同和 电影 公司 之 间 的 联系 是 多 对 多 ， 而 不 是 多 对 一 。 图 4-13 画 出 了 E/R 图 。 注 意 ， 合 
同 与 一 位 影星 、 一 部 电影 以 及 任意 数目 的 电影 公司 联系 。 口 







Movies 


图 4-13 合同 连接 一 位 影星 、 一 部 电影 和 一 组 电影 公司 


日 在 一 个 fF 实体 不 与 任何 E 实 体 联系 的 情况 下 ，F 的 新 属性 将 被 赋予 特殊 值 “null*， 以 指明 关联 E 实 体 不 存在 。 
相似 的 规律 也 适用 于 b) 中 有 R 的 新 属性 。 
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4.2.6 习题 

习题 4.2.1 图 4-14 是 一 个 银行 数据 库 的 E/R 图 ， 包 括 顾 客 和 账户 。 因 为 顾客 可 以 有 几 个 账户 ， 而 账户 可 
以 被 几 个 顾客 共同 拥有 ， 故 每 位 顾客 与 一 个 “账户 集 ” 相 关联 ， 而 账户 是 一 个 或 几 个 账户 集 的 成 员 。 
假设 各 种 联系 和 属性 的 意思 正如 字面 意思 所 示 ， 请 评判 这 个 设计 。 它 违反 了 什么 设计 原则 ?为 什 
么 ? 你 建议 怎么 改 ? 

习题 4.2.2 ”你 认为 在 什么 情况 下 (考虑 Studios 和 Presidents 的 隐 含 属性 ) 可 以 把 图 4-3 中 的 两 个 实体 集 
和 联系 结合 起 来 成 为 单一 的 实体 集 和 属性 ? 

习题 4.2.3 假设 在 图 4-7 中 删除 了 Studios 的 属性 address。 考 虑 如 何 用 一 个 属性 代替 一 个 实体 集 。 那 个 属 
性 应 出 现在 什么 地 方 ? 

习题 4.2.4 若 要 把 图 4-13 中 的 下 列 实体 集 用 属性 代替 ， 给 出 可 能 的 属性 : 
a) Stars 
b) Movies 
c) Studios 

! 习 题 4.2.5 在 本 题 和 下 题 中 ， 考 虑 用 E/R 模 型 表示 两 种 描述 出 生 的 设计 方法 。 在 一 次 出 生 中 ， 有 一 个 婴 
儿 (双胞胎 用 两 次 出 生来 表示 )、 一 位 母亲 、 任 意 数目 的 护士 和 任意 数目 的 医生 。 因 此 假设 有 实体 集 
Babies、Mothers、Nnurses 和 Doctors。 假 设 用 一 个 联系 Births 连 接 上 述 四 个 实体 集 ， 如 图 4-15 所 示 。 
注意 Births 的 联系 集 的 元 组 有 如 下 形式 : (baby，mother，nurse，doctor) 。 如 果 有 多 个 护士 或 医生 接 
生 ， 那 么 对 于 同一 个 婴儿 和 和 母亲， 就 会 有 多 个 元 组 与 每 个 护士 和 医生 的 组 合 匹 配 。 
可 以 将 某 些 假设 加 入 到 设计 中 。 对 每 一 个 假设 ， 说 出 怎样 把 箭头 或 其 他 元 素 加 到 E/R 图 中 以 便于 表示 
这 个 假设 。 
a) 对 每 个 婴儿 ， 只 有 唯一 的 母亲 。 
b) 对 每 一 个 婴儿 、 护 士 和 医生 的 组 合 ， 有 了 唯一 的 母亲 。 
c) 对 每 一 个 婴儿 和 母亲 的 组 合 ， 有 唯一 的 医生 。 






Nurses 





图 4-14 银行 数据 库 的 一 个 不 好 的 设计 图 4-15 用 多 路 联系 表示 出 生 


! 习 题 4.2.6 “习题 4.2.5 的 另 一 种 解决 方法 是 用 实体 集 Births 连 接 四 个 实体 集 Babies、Mothers、Nurses 和 
Doctors， 在 Births 和 它们 之 间 分 别 有 四 种 联系 ， 如 图 4-16 所 示 。 用 箭头 (表示 某 些 联系 是 多 对 一 ) 表 
示 下 列 条 件 : 

a) 每 个 婴儿 是 唯一 一 次 出 生 的 结果 ， 每 次 出 生 只 有 唯一 的 婴儿 。 
b) 除 条 件 (a) 外 ， 每 个 婴儿 有 唯一 的 母亲 。 

c) 除 条 件 (a) 和 (b) 外 ， 每 次 出 生 只 有 唯一 的 医生 。 

每 种 情况 下 ， 你 看 到 了 设计 上 的 哪些 缺点 ? 
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图 4-16 用 一 个 实体 集 表示 的 出 生 


1 习题 4.2.7 ”假设 改变 观点 ， 人 允许 一 个 母亲 一 次 生产 多 个 婴儿 。 在 此 情况 下 ， 你 怎样 用 习题 4.2.5 和 4.2.6 
的 方法 去 表示 每 个 婴儿 仍然 只 有 唯一 的 母亲 ? 


4.3 ”E/R 模 型 中 的 约束 


E/R 模 型 有 几 种 方式 来 表达 构建 数据 库 过 程 中 数据 上 的 常用 约束 。 像 关系 模型 一 样 ， 可 以 
通过 属性 (或 属性 组 ) 表示 实体 集 的 键 。 我 们 已 经 知道 如 何 用 一 个 由 联系 指向 实体 集 的 箭头 
表达 “函数 依赖 "。 还 有 另外 一 种 方式 来 表达 “引用 完整 性 “约束 ， 即 需要 一 个 集合 中 的 实体 
和 另外 一 个 集合 的 实体 相关 联 。 


4.3.1 E/R 模 型 中 的 键 

实体 集 E 的 键 (key) 是 有 一 个 或 多 个 属性 的 集合 KK， 对 来 自 于 E 的 不 同 实 体 e!/ 和 e,， 它 们 
对 键 K 中 的 属性 没有 完全 相同 的 值 。 如 果 K 是 由 多 个 属性 组 成 ， 那么 对 于 et 和 es 虽然 它们 可 以 
部 分 相同 ， 但 决 不 会 全 部 相同 。 有 重要 的 儿 点 需要 记 住 : 

。 每 个 实体 集 必须 有 一 个 键 ， 尽管 在 isa 层 次 和 “ 弱 ” 实 体 集 ( 见 4.4 节 ) 情况 下 ， 键 实际 

上 是 属于 另 一 个 实体 集 。 

。 一 个 实体 集 也 可 以 有 多 个 键 。 但 是 ， 习 惯 上 只 选择 一 个 作为 “主键 "， 所 以 就 好 像 只 

一 个 键 一 样 。 

。 当 一 个 实体 集 处 于 一 个 isa 层 次 中 时 ， 要 求 根 实 体 集 拥有 和 键 所 需 的 所 有 属性 ， 并 且 每 个 实 

体 集 的 键 都 可 在 根 实体 集中 发 现 它 的 组 成 部 分 ， 而 不 管 在 这 个 层次 中 有 多 少 个 实体 集 是 

它 的 组 成 部 分 。 

在 电影 例子 中 ， 使 用 了 title 和 year 作 为 Movies 的 键 ， 根据 观察 具有 相同 title 的 两 个 电影 不 
会 在 一 年 里 面 发 布 。 使 用 name 作 为 MovieStar 的 键 是 安全 的 ， 相 信和 现实 生活 中 没有 明星 会 使 用 
另 一 个 明星 的 名 字 。 


4.3.2 E/R 模 型 中 键 的 表示 
在 E/R 图 中 ， 一 个 实体 集 键 的 属性 用 下 划 线 标 出 。 例 如 ， 图 4-17 是 对 图 4-2 的 重新 绘制 ， 
其 中 的 键 属性 带 有 下 划 线 。 属 性 name 是 Stars 的 键 。 类 似 地 ，Studios 的 键 由 它 的 属性 name 
属性 title 和 year 一 起 构成 Movies 的 键 。 注 意 ， 当 一 些 属性 带 下 划 线 时 ， 如 图 4-17 所 示 ， 说 
明 它们 都 是 键 的 成 员 。 当 一 个 实体 有 几 个 键 时 并 没有 记号 表示 这 种 情况 ， 只 在 主键 带 下 划 线 。 
你 也 得 注意 在 一 些 反常 情况 下 ， 构 成 一 个 实体 集 的 键 的 属性 并 不 完全 属于 它 自己 。 这 叫做 
“ 弱 实 体 集 ”"， 稍 后 将 在 4.4 布 讨论 。 
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Movies 


图 4-17 用 下 划 线 标 出 键 的 E/R 图 


4.3.3 引用 完整 性 

回顾 2.5.2 节 中 对 于 引用 完整 性 约束 的 讨论 。 该 约束 是 说 在 一 段 上 下 文中 出 现 的 值 一 定 也 
在 另 一 段 上 下 文中 出 现 。 例 如 ， 孝 虑 图 4-2 中 从 Movies 到 Studios 的 多 对 一 联系 Owns。 简 单 地 
说 ， 多 对 一 联系 是 没有 电影 可 以 被 超过 一 个 电影 公司 拥有 。 但 那 并 不 是 说 一 部 电影 必须 被 一 
个 电影 公司 所 拥有 ， 或 者 说 拥有 该 电影 的 电影 公司 必须 被 放 入 实体 集 Studios 并 存 到 数据 库 中 。 
一 个 适当 的 Owns 联 系 上 的 引用 完整 性 则 要 求 每 部 电影 所 属 的 电影 公司 (被 “联系 ”所 引用 的 
实体 ) 必须 存在 于 数据 库 中 。 

扩展 E/R 图 中 的 箭头 标记 可 以 用 来 表示 一 个 联系 是 否 被 期 望 在 一 个 或 多 个 方向 上 支持 引用 
完整 性 。 假 设 R 是 从 实体 集 E 到 实体 集 F 的 联系 。 用 圆 箭头 指向 F 表 示 此 联系 从 有 到 不 仅 是 多 对 
一 或 一 对 一 ， 而 且 要 求 与 给 定 的 E 实 体 相 联系 的 fF 实体 必须 存在 。 当 R 是 多 个 实体 集 之 间 的 联 
系 时 间 样 如 此 。 

例 4.19 ”图 4-18 显 示 了 实体 集 Movies、Studios 和 Presidents 之 间 一 些 引 用 完整 性 的 约束 。 
这 些 实体 集 和 联系 的 初次 介绍 是 在 图 4-2 和 图 4-3 中 。 图 中 可 以 看 见 一 个 圆 箭 头 从 联系 Owns 指 
向 Studios。 此 箭头 表示 了 每 部 电影 必须 被 一 个 电影 公司 所 拥有 的 引用 完整 约束 ， 而 且 此 电影 
公司 必须 已 经 在 Studios 实 体 集中 。 


人 人 


图 4-18 显示 引用 完整 性 约束 的 E/R 图 


类 似 地 ， 图 中 还 有 一 个 圆 箭头 从 Runs 指 向 Studios。 它 表示 的 引用 完整 约束 是 说 每 个 经 理 
经 营 一 家 存在 于 Studios 实 体 集 的 电影 公司 。 
注意 ， 从 Runs 到 Presidents 仍 然 是 尖 箭 头 。 这 个 选择 反映 了 一 个 电影 公司 及 其 经 理 间 合理 的 假 
定 。 如 果 一 个 电影 公司 不 存在 了 ， 那 它 的 经 理 就 不 再 叫 一 个 电影 公司 的 经 理 了 ， 此 经 理 就 应 
从 实体 集 Presidents 中 删 去 。 因 此 有 一 个 圆 箭头 指向 Studios。 另 一 方面 ， 如 果 经 理 从 数据 库 中 
删除 了 ， 那 个 电影 公司 会 继续 存在 。 因 此 使 用 通常 的 尖 稍 头 ， 表 示 每 个 电影 公司 有 至 多 一 位 
经 理 ， 但 有 时 会 没有 经 理 。 口 
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4.3.4 度 约束 

在 E/R 模 型 中 ， 可 以 在 连接 一 个 联系 到 一 个 实体 的 边 上 加 一 个 数字 ， 表 示 相 关 实 体 集中 任 
一 实体 可 被 联系 到 的 实体 数目 的 约束 。 例 如 ， 假 设 电 2 
影 实 体 不 能 被 联系 连接 到 多 于 10 个 影星 实体 ， 可 以 选 “| Stars < oo 
择 对 联系 的 度 加 以 约束 。 图 4-19 每 个 电影 的 影星 数目 的 约束 


4.3.5 习题 

习题 4.3.1 对 以 下 题目 的 E/R 图 : 
a) 习题 4.1.1 
b) 习题 4.1.3 
c) 习题 4.1.6 
i) 选择 并 表示 键 ; 
ii) 指出 适当 的 引用 完整 性 约束 。 

! 习 题 4.3.2 ”可 以 认为 联系 像 实体 集 一 样 也 有 和 键 。 设 R 是 实体 集 E1, Ei, …, E, 之 间 的 联系 。 那 么 R 的 键 是 
从 El,E;,…, Ei 的 属性 中 选 出 的 属性 集 Kk， 使 得 如 果 (e1, ez …, en) 和 (有 i, 万 , …, 万 ) 是 R 联 系 集中 的 两 个 不 
同 元 组 ， 那 么 这 两 个 元 组 就 不 可 能 在 K 的 所 有 属性 上 全 相同 。 现 在 ,假设 n = 2， 也 就 是 说 ，R 是 二 元 
联系 。 并 且 ， 对 每 个 i， 设 Ki 是 一 属性 集 ， 表 示 实 体 集 E1 的 键 。 根 据 E1 和 E2 的 项 ， 给 出 下 述 R 的 最 小 
可 能 的 键 : 
a) R 是 多 对 多 联系 
b) R 是 从 EI 到 Es 的 多 对 一 联系 
c) R 是 从 EE 到 El 的 多 对 一 联系 
d) R 是 一 对 一 联系 

! 习题 4.3.3 ”重新 考虑 习题 4.3.2 的 问题 ， 但 允许 n 是 任意 值 而 不 仅 是 2。 仅 仅 利 用 从 R 到 E; 的 有 箭头 的 弧 
的 信息 ， 说 明 怎 样 根据 K, 的 项 找到 R 的 最 小 可 能 键 K。 


4.4 ” 弱 实 体 集 


可 能 会 有 这 样 的 情形 ， 一 个 实体 集 键 是 由 另 一 个 实体 集 的 部 分 或 全 部 属性 构成 。 这 样 的 
实体 集 叫 做 弱 实 体 集 (weak entity set)。 


4.4.1 弱 实 体 集 的 来 源 

需要 弱 实 体 集 有 两 个 主要 原因 。 第 一 ， 有 了 时 实体 集 处 在 一 个 与 4.1.11 节 的 “isa 层 次 ”分 类 
无 关 的 层次 体系 中 。 如 果 集 合 E 中 的 实体 是 集合 F 中 实体 的 一 部 分 ， 那 么 可 能 仅仅 只 考虑 E 实 
体 的 名 字 将 不 具有 了 唯一 性 ， 需 要 再 考虑 了 E 实 体 所 属 的 F 实 体 的 名 字 后 唯一 性 才 成 立 。 下 面 用 
几 个 例子 说 明 这 个 问题 。 

例 4.20 ”一 个 电影 公司 可 能 有 几 套 拍摄 班子 。 这 些 拍摄 班子 可 能 被 一 个 电影 公司 指定 为 
crew1、crew2 等 。 可 是 ， 其 他 电影 公司 也 可 能 用 相同 的 编号 ， 于 是 ，number 属 性 不 是 拍摄 班 
子 的 键 。 为 了 唯一 地 命名 一 套 拍摄 班子 ， 就 需要 同时 给 出 它 所属 电 影 公 司 的 名 字 和 它 的 编号 。 
图 4-20 显 示 了 这 些 情况 。 双 和 矩形 表示 一 个 弱 实 体 集 ， 双 菱形 表示 一 个 多 对 一 的 联系 ， 它 有 助 
于 提供 弱 实体 集 的 键 。 这 些 标注 将 会 在 4.4.3 节 中 做 进一步 的 解释 。 弱 实体 集 Crews 的 键 是 它 自 
己 的 number 属 性 和 它 通过 多 对 一 联系 Unit-of 连 接 到 的 唯一 的 电影 公司 的 name 属 性 组 成 。 口 

例 4.21 一 个 种 类 (species) 是 由 它 的 种 (或 类 ) 和 它 的 种 类 名 所 指定 。 例 如 ， 人 类 是 智 
人 类 (Homo sapiens) 种 类 ;人 类 (Homo) 是 种 名 ， 现 代 人 (sapiens) 是 种 类 名 。 一 般 地 ， 
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种 由 几 个 种 类 构成 ， 每 个 种 都 有 名 字 ， 它 以 种 名 开头 ， 继 以 种 类 名 。 不 笠 的 是 ， 种 类 名 自身 
并 不 唯一 。 两 个 或 多 个 种 有 相同 名 字 的 种 类 。 因 此 ， 为 了 唯一 指定 一 个 种 类 ， 需 要 种 类 名 和 
它 被 Belongs-to 联 系 所 连接 到 的 种 名 ， 如 图 4-21 所 示 。Species 是 个 弱 实 体 集 ， 部 分 键 来 自 于 它 





图 4-20 弱 实 体 集 Crew 和 它 的 连接 图 4-21 另 一 个 弱 实 体 集 : Species 


第 二 个 弱 实 体 集 的 来 源 是 4.1.10 节 介绍 的 连接 实体 集 ， 它 被 作为 消除 多 路 联系 的 一 种 方 
法 9 。 这 些 实体 集 经 常 没有 自己 的 属性 。 它 们 的 键 是 由 它们 所 连接 的 实体 的 键 属性 构成 。 

例 4.22 在 图 4-22 中 可 以 看 到 用 于 连接 的 实体 集 Contracts 代 末了 例 4.5 中 的 三 重 联系 
Contracts。Contracts 有 一 个 属性 salary， 但 它 并 不 是 键 。 合 同 的 键 由 电影 公司 的 名 字 、 参 演 影 
星 的 名 字 及 电影 名 字 和 出 品 日 期 组 成 。 加 








图 4-22 连接 实体 集 是 弱 实 体 集 


4.4.2 弱 实 体 集 的 要 求 

弱 实体 集 的 键 属性 不 加 选择 将 不 能 得 到 。 相 反 ， 如 果 E 是 弱 实 体 集 ， 则 它 的 键 组 成 为 : 

1. 零 个 或 多 个 它 自己 的 属性 ; 

2. 从 E 到 其 他 实体 集 的 多 对 一 联系 连接 的 键 属性 。 这 些 多 对 一 联系 称 为 E 的 支持 联系 
(supporting relationships)， 从 E 到 达 的 实体 集 称 为 支持 实体 集 (supporting entity set) 。 

为 了 使 从 E 到 某 个 实体 集 F 的 多 对 一 联系 R 成 为 E 的 一 个 支持 联系 ， 必 须 服从 下 面 的 条 
件 : 

a) R 必 须 是 从 E 到 大 的 二 元 的 多 对 一 联系 ， 


日 记 住 ， 在 E/R 模 型 中 对 多 路 联系 的 消除 没有 特殊 要 求 ， 虽 然 在 某 些 数据 库 设计 模型 中 有 这 种 要 求 。 
日 记 住 ， 一 对 一 联系 是 多 对 一 联系 的 特例 。 当 说 联系 必须 是 多 对 一 时 ， 总 是 也 包括 了 一 对 一 联系 在 内 。 
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b) R 必 须 有 从 E 到 F 的 引用 完整 性 。 也 就 是 说 ， 对 每 个 E 实 体 ， 经 R 与 它 相 联系 的 F 实 体 都 
必须 实际 存在 于 数据 库 中 。 换 言 之 ， 从 R 到 天 的 圆 箭头 必须 是 合理 的 ; 

c) F 提 供给 E 作 键 的 属性 必须 是 F 的 键 属性 ， 

d) 然而 ， 如 果 F 本 身 就 是 弱 实 体 集 ， 那 么 F 提 供给 E 的 F 的 部 分 或 全 部 键 属性 是 由 支持 联系 
连接 的 一 个 或 多 个 实体 集 G 的 键 属性 。 递 归 地 ， 如 果 G 是 弱 实 体 集 ， 则 G 的 某 些 键 属性 又 将 由 
另 一 个 实体 集 提供 ， 如 此 继续 下 去 ， 

e) 如 果 从 E 到 斑 有 多 个 不 同 的 支持 联系 ， 那 么 每 个 联系 被 用 来 提供 一 份 F 的 键 的 拷贝 以 帮 
助 E 键 的 形成 。 注 意 ，E 中 的 实体 e 通 过 不 同 的 支持 联系 被 连接 到 Ff 中 的 不 同 实体 。 因 此 ，F 的 
几 个 不 同 实体 的 键 可 能 会 出 现在 标识 一 个 E 的 特定 实体 e 的 键 值 中 。 

需要 这 些 条 件 的 直观 解释 如 下 。 考 虑 弱 实 体 集 的 一 个 实体 ， 比 如 例 4.23 中 的 拍摄 班子 。 抽 
象 地 讲 ， 每 个 拍摄 班子 是 唯一 的 。 原 则 上 讲 ， 人 们 能 够 区 分 不 同 的 班子 ， 即 使 它们 有 相同 的 
编号 ， 而 且 属 于 不 同 的 电影 公司 。 但 实际 上 仅仅 用 拍摄 班子 的 信息 还 不 足以 区 分 它们 ， 因 为 
仅 有 编号 还 不 够 。 把 附加 信息 联系 到 一 个 班子 的 唯一 途径 是 ， 是 否 有 某 种 决定 性 的 过 程 能 导 
出 附加 信息 ， 以 使 摄影 班子 能 被 唯一 指定 。 但 是 与 一 个 抽象 的 拍摄 班子 实体 联系 的 唯一 值 是 ; 

1. 实体 集 Crews 的 属性 的 值 ， 

2. 依据 从 一 个 摄影 班子 实体 到 某 个 其 他 实体 集 的 唯一 实体 的 联系 所 获取 的 属性 值 ， 这 里 
其 他 实体 有 某 种 类 型 的 唯一 关联 值 。 就 是 说 ， 这 个 依据 的 联系 必须 是 指向 另 一 个 实体 集 F 的 多 
对 一 联系 ， 并 且 相 关联 的 值 必 须 是 F 键 的 一 部 分 。 


4.4.3 弱 实 体 集 的 符号 

用 下 面 的 约定 来 描述 一 个 实体 集 是 弱 实 体 集 ， 并 且 声 明 它 的 键 属性 。 

1. 如 果 一 个 实体 集 是 弱 实 体 集 ， 它 就 被 显示 为 双边 的 矩形 。 这 条 约定 的 例子 有 图 4-20 中 
的 Crews 和 图 4-22 中 的 Contracts 。 

2. 它 支 持 的 多 对 一 联系 显示 为 双边 的 菱形 。 此 约定 的 例子 有 图 4-20 中 的 Unit-of 和 图 4-22 
中 全 部 的 三 个 联系 。 

3. 如 果 一 个 实体 集 为 它 自 己 的 键 提供 了 任何 属性 ， 那 么 那些 属性 就 带 有 下 划 线 。 如 图 
4-20 给 出 的 例子 ， 图 中 摄影 班子 的 编号 虽然 不 是 Crews 键 的 全 部 ， 但 是 它 自 己 键 的 一 部 分 。 

可 以 用 下 面 的 规则 概述 这 些 约定 : 

。 无 论 何 时 用 到 一 个 双边 的 实体 集 E， 它 就 是 弱 实 体 集 。E 中 带 下 划 线 的 属性 (如 果 有 的 

话 ) 加 上 E 被 双边 的 多 对 一 联系 连 向 的 实体 集 的 键 属性 ， 就 必定 使 E 实 体 唯 一 。 

读者 应 该 记 住 双边 的 菱形 只 用 于 支持 联系 。 但 是 ， 也 有 可 能 从 弱 实 体 集 连 接 出 去 的 多 对 
一 联系 不 是 支持 联系 ， 因 此 也 就 不 是 双边 菱形 。 

例 4.23 ”在 图 4-22 中 ， 联 系 Studio-of 不 需要 是 Contracts 的 支持 联系 。 原 因 是 每 部 电影 只 属 
于 一 家 电影 公司 ， 它 由 从 Movies 到 Studios 的 多 对 一 联系 (未 显示 ) 决定 。 因 此 ， 如 果 知 道 了 
一 个 影星 和 一 部 电影 的 名 字 ， 那 么 在 这 个 影星 、 这 部 电影 和 它们 所 属 的 电影 公司 之 间 最 多 只 
有 一 个 合同 。 根 据 记 号 所 表达 的 意思 ， 图 4-22 中 的 Studio-of 更 适合 用 一 个 普通 的 单 边 葵 形 ， 
而 不 是 双边 菱形 。 口 


4.4.4 习题 
习题 4.4.1 ”表示 学 生 和 他 们 课程 成 绩 的 一 种 方式 是 用 相应 于 学 生 、 课 程 和 “注册 ”的 实体 集 。 注 册 实 体 
建立 了 学 生 和 课程 之 间 的 “连接 ”实体 集 ， 它 不 仅 可 以 被 用 来 表示 一 个 学 生 选 了 某 门 课 ， 而 且 可 以 表 
示 选 此 课 的 学 生 的 成 绩 。 为 此 情况 画 一 个 ER 图 ， 指 出 弱 实体 集 和 它 的 键 。 成 绩 是 注册 键 的 一 部 分 吗 ? 
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习题 4.4.2 ”修改 习题 4.4.1 的 答案 ， 以 便 可 以 记录 学 生 在 一 门 课 中 的 每 次 作业 的 成 绩 。 同 样 ， 指 出 弱 实 
体 集 和 它 的 键 。 
习题 4.4.3 在 习题 4.2.6(a) 一 (b) 的 E/R 图 中 ， 指 出 弱 实 体 集 、 支 持 联系 和 键 。 
习题 4.4.4 为 下 面 的 情况 画 出 包括 弱 实 体 集 的 E/R 图 。 为 每 种 情况 指出 实体 集 的 键 。 
a) 实体 集 Courses 和 Departments 。 一 门 课 只 有 唯一 的 系 开设 ， 它 仅 有 的 属性 是 它 的 编号 。 不 同系 可 
以 开设 具有 相同 编号 的 课 。 每 个 系 有 唯一 的 名 字 。 
!b) 实体 集 包括 社团 (Leagues)、 队 (Teams) 和 选手 (Players) 。 社 团 的 名 字 唯 一 。 社 团 中 没有 同名 
的 队 。 队 中 也 没有 两 个 相同 编号 的 选手 。 可 是 ， 不 同 队 中 可 以 有 相同 编号 的 选手 ， 不 同 社团 中 可 
以 有 同名 的 队 。 


4.5 从 E/R 图 到 关系 设计 


初 看 起 来 ， 把 E/R 设 计 转 换 为 关系 数据 库 模 式 很 直观 : 

。 每 个 实体 集 可 以 转化 为 具有 相同 属性 集 的 关系 ; 

。 联系 也 用 关系 替换 ， 替 换 的 关系 属性 就 是 联系 所 连接 的 实体 集 的 键 集合 。 

虽然 这 两 条 规则 在 大 多 数 情况 下 可 用 ， 但 仍 要 考虑 下 面 几 种 特殊 情况 : 

1. 弱 实 体 集 不 能 直接 转化 为 关系 。 

2. “isa” 联 系 和 子 类 要 特殊 对 待 。 

3. 有 时 ， 需 要 把 两 个 关系 组 合 为 一 个 关系 ， 特 别 是 当 一 个 关系 是 从 实体 集 E 转 化 形成 ， 而 
男 一 个 关系 是 由 E 到 其 他 实体 集 的 一 个 多 对 一 的 联系 转化 而 来 时 ， 要 考虑 这 种 组 合 。 


4.5.1 实体 集 到 关系 的 转化 

先 不 考虑 弱 实 体 集 。 弱 实体 集 的 转化 需要 作 些 修改 ， 对 此 将 在 4.5.4 节 中 讨论 。 对 任 一 个 
非 弱 实体 集 ， 可 创建 一 个 同名 且 具 有 相同 属性 集 的 关系 。 因 为 实体 集 参 与 的 联系 不 会 在 转化 
后 的 关系 中 体现 出 来 ， 所 以 还 需要 用 单独 的 关系 处 理 联系 ， 这 一 点 将 在 4.5.2 节 中 进行 讨论 。 

例 4.24 考虑 图 4-17 ( 重 画 为 图 4-23) 中 的 三 个 实体 集 Movies、Stars 和 Studios。Movies 
实体 集 的 属性 分 别 是 title, year, length 和 genre。 转 化 后 的 结果 就 是 关系 Movies， 它 和 2.2 节 中 给 
出 的 图 2-1 相 似 。 

接着 考虑 图 4-23 中 的 实体 集 Stars。 它 有 两 个 属性 name 和 address。 因 此 ， 相 应 的 关系 
Stars 的 模式 为 Stars(name，address)。 这 个 关系 的 一 个 典型 实例 如 下 所 示 ， 

name address 


Carrie Fisher | 123 Maple St., Hollywood 
Mark Hamill 456 0ak Rd., Brentwood 
Harrison Ford | 789 Palm Dr., Beverly Hills 口 








4.5.2 E/R 联 系 到 关系 的 转化 

E/R 模 型 中 的 联系 也 可 以 用 关系 表示 。 一 个 给 定 联系 R 的 关系 有 下 列 属性 : 

1. 对 于 联系 R 中 涉及 的 每 一 个 实体 集 ， 它 们 的 键 属性 或 属性 集 都 是 R 关 系 模式 的 一 部 分 。 

2, 如 果 这 个 联系 有 属性 ， 则 它们 也 是 R 关 系 中 的 属性 。 

如 果 一 个 实体 集 以 不 同 的 角色 在 联系 中 多 次 出 现 ， 则 它 的 键 属性 出 现 的 次 数 就 同 角色 出 
现 的 次 数 一 样 多 。 为 了 避免 重 名 ， 必 须 对 这 些 键 属性 重新 命名 。 更 普遍 的 情况 是 ， 只 要 R 本 身 
的 属性 和 与 其 相连 的 实体 集 的 键 属性 有 同名 ， 就 要 对 这 些 属性 重 命名 。 
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Studios 





图 4-23 电影 数据 库 的 E/R 图 


例 4.25 ”考虑 图 4-23 中 的 联系 Owns。 它 连接 了 实体 集 Movies 和 Studios。 则 0wns 的 关系 模 
式 中 含有 Movies 的 键 属性 title 和 year， 以 及 Studios 的 键 name。 于 是 ， 它 的 关系 模式 为 : 
Dwns(title, year, studioName) 
这 个 关系 的 一 个 样本 实例 为 : 
title year | studioName 
Star Wars 1977 | Fox 
Gone With the Wind | 1939 | MGM 
Wayne’s World 1992 | Paramount 
为 了 清晰 起 见 ， 这 里 选择 studioName 作 为 Strudios 中 属性 name 的 名 字 。 口 
例 4.26 同样， 图 4-23 中 的 联系 Star-In 可 转化 成 具有 属性 titie、year (Movies 的 键 属性 
集 ) 和 starName (Stars 的 键 属性 ) 的 关系 ， 图 4-24 给 出 了 关系 Star-In 的 一 个 样本 实例 。 “” 口 





starName 
Star Wars Carrie Fisher 
Star Wars Mark Hamill 


Producing 


Star Wars Harrison Ford Siudio 1 
studio 


Gone With the Wind Vivien Leigh 
Wayne’s World Dana Carvey 
Wayne’s World Mike Meyers 





图 4-24 联系 Stars-In 的 关系 图 4-25 联系 Contracts 


例 4.27 把 多 路 联系 转化 为 关系 也 很 容易 。 考 虑 图 4-6 (在 图 4-25 中 重新 给 出 ) 中 的 四 路 
联系 Contracts ， 该 联系 涉及 一 个 影星 ， 一 部 电影 和 两 个 电影 公司 。 第 一 路 联系 保存 有 影星 的 
合同 ， 第 二 路 联系 是 影星 为 哪 部 电影 演出 的 合同 。 若 用 一 个 关系 Contracts 把 它 描述 出 来 ， 则 
它 的 关系 模式 包含 以 下 四 个 实体 集 的 键 属性 。 

1. Stars 的 键 starName。 

> Movies 的 键 属性 集 tit1e 和 year。 

3. 标识 第 一 个 电影 公司 名 字 的 键 studio0fStar。 前 面 曾 假设 电影 公司 的 名 字 是 实体 集 
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Studios 的 键 。 

4. 标 识 电影 公司 名 字 的 键 producingStudio， 而 这 个 电影 公司 用 那个 影星 出 演 该 电影 。 

这 就 是 说 ， 这 个 关系 模式 为 ; 

Contracts(starName, title, year, studio0fStar, producingStudio) 
注意 ,在 这 个 关系 模式 中 使 用 的 属性 名 并 不 是 任何 原 实体 集 的 属性 “名 字 ”， 因 为 若 这 样 的 话 ， 
就 不 知道 它 到 底 指 的 是 影星 的 名 字 ， 还 是 电影 公司 的 名 字 ， 若 是 电影 公司 名 ， 又 是 指 哪 一 个 
电影 公司 ? 而 且 ， 如 果实 体 集 Contracts 也 有 属性 ， 比 如 salary， 那 么 这 些 属性 都 要 浴 加 到 关系 
Contracts 的 关系 模式 中 。 口 


4.5.3 关系 组 合 

有 时 从 实体 集 和 联系 中 转化 而 来 的 关系 对 于 给 定 的 数据 而 言 并 不 是 最 好 的 。 一 个 较 普 遍 
的 例子 是 ， 如 果 存 在 一 个 实体 集 E 和 一 个 从 E 到 F 的 多 对 一 联系 R， 则 经 转化 后 所 得 到 的 关系 模 
式 E 和 R 都 含有 E 的 键 属性 。 而 且 ， 从 E 得 到 的 关系 模式 中 还 包含 在 E 中 不 是 键 的 属性 ， 从 R 得 到 
的 关系 模式 中 也 包含 F 中 的 键 和 R 中 的 所 有 属性 。 由 于 R 是 多 对 一 联系 ，E 的 键 已 确定 了 这 些 属 
性 的 唯一 值 ， 因 此 可 把 它们 组 合 在 一 个 关系 中 ， 相 应 的 模式 包含 : 

1.E 的 所 有 属性 。 

2.F 的 键 属性 。 

3. 联系 R 的 任何 属性 。 

对 于 一 个 不 与 F 相 连 的 E 中 的 实体 e 而 言 ， 上 述 的 2 和 3 类 型 的 属性 在 e 元 组 中 的 相应 分 量 上 
为 空 值 。 

例 4.28 ”在 电影 数据 库 的 例子 中 ，Owns 是 一 个 连接 Movies 和 Studios 的 多 对 一 联系 。 例 
4.25 中 给 出 了 它 到 关系 的 转化 ， 实 体 集合 Movies 到 关系 的 转化 也 已 在 例 4.24 中 给 出 。 取 出 它们 
的 属性 进行 连接 ， 所 得 的 关系 模式 如 图 4-26 所 示 。 口 





Gone With the Wind 
Wayne’s World 





图 4-26 组 合 关系 Movies 和 Owns 


之 所 以 按 这 种 方式 组 合 关系 ， 是 因为 把 依赖 于 E 键 属性 的 所 有 属性 组 合 在 一 个 关系 中 有 很 
多 优点 ， 即 使 是 有 多 条 从 E 到 其 他 实体 集 的 多 对 一 联系 时 也 如 此 。 例 如 ， 涉 及 一 个 关系 属性 的 
查询 比 涉及 多 个 关系 属性 的 查询 效率 更 高 。 实 际 上 ， 一 些 基 于 E/R 模 式 的 设计 系统 可 以 自动 地 
为 用 户 组 合 这 些 关系 。 

另 一 方面 ， 有 人 可 能 会 想 ， 把 E 和 涉及 E 但 不 是 从 E 到 其 他 实体 的 多 对 一 联系 R 组 合 起 
来 是 否 一 样 有 意义 。 这 么 做 是 危险 的 ， 因 为 这 样 常常 会 造成 元 余 ， 像 接 下 来 的 这 个 例子 
所 示 。 

例 4.29 ”为 了 说 明 可 能 产生 错误 组 合 ， 假 设 要 将 例 4.26 中 的 关系 和 多 对 多 联系 Stars-in 组 
合 ，Stars-in 在 图 4-24 中 给 出 。 所 得 到 的 组 合 关 系 和 图 3-2 中 给 出 的 一 样 ， 这 里 在 图 4-27 中 重新 
给 出 。 如 同 3.3.1 节 中 讨论 的 一 样 ， 这 个 关系 需要 通过 规范 化 的 过 程 来 移 除 其 中 的 异常 。 口 


条 4 章 ” 高 级 数据 库 模 型 95 


title year | length | genre studioName | starName 
Star Wars Fox Carrie Fisher 
Star Wars Fox Mark Hamill 
Star Wars Fox Harrison Ford 


Gone With the Wind MGM Vivien Leigh 
Wayne’s World Paramount Dana Carvey 
Wayne’s World Paramount Mike Meyers 





图 4-27 带 有 影星 信息 的 关系 Movies 


4.5.4 处 理 弱 实体 集 

当 E/R 图 中 有 一 个 弱 实 体 集 时 ， 需 要 做 下 面 三 件 不 同 的 事 : 

1. 从 弱 实 体 集 W 得 到 的 关系 不 仅 要 包含 W 的 属性 ， 还 要 包含 相应 支持 实体 集 的 键 属性 。 支 
持 实体 集 很 容易 辨认 ， 因 为 它们 由 从 炙 引 出 的 支持 联系 〈 双 边 菱形 ) 连接 。 

2. 与 弱 实 体 集 W 相 连 的 联系 ， 经 转化 后 所 得 的 关系 必须 包含 W 键 属性 ， 以 及 对 W 键 有 贡献 
的 实体 集 属性 。 

3. 然而 ， 一 个 支持 联系 R( 它 是 从 弱 实 体 集 W 指 向 支持 实体 集 ) 不 必 被 转化 为 关系 。 理 由 
就 是 ， 如 同 4.5.3 节 讨论 的 ， 由 多 对 一 联系 R 转 化 得 到 的 关系 的 属性 可 以 是 W 的 属性 ， 也 可 以 与 
W 的 关系 模式 进行 组 合 (在 R 有 属性 的 情况 下 )。 

当然 ， 当 引入 附加 属性 来 建立 一 个 弱 实体 集 的 键 时 ， 要 注意 不 要 有 重 名 。 如 果 有 必要 ， 
要 对 其 中 一 些 或 所 有 的 属性 进行 重 命名 。 

例 4.30 考虑 图 4-20 中 的 弱 实体 集 Crews， 该 图 重新 给 出 为 图 4-28。 这 个 图 表 有 三 个 关系 ， 
它们 的 关系 模式 分 别 为 : 

Studios (name, addr) 


Crews(number, studioName, crewChief) 
Unit-of (number, studioName, name) 


第 一 个 关系 Studios 是 从 同名 实体 集 直接 转化 而 来 。 第 二 个 关系 Crews 是 由 弱 实体 集 
Crews 转 化 得 到 。 这 个 关系 的 属性 是 Crews 的 键 属性 和 Crews 的 非 键 属性 一 一 crewChief。 另 外 
用 studioName 作 为 关系 Crews 的 属性 来 与 实体 集 Studios 的 name 相 对 应 。 








图 4-28 弱 实 体 集 Crews 


第 三 个 关系 Unit-of 也 由 同名 联系 转化 而 来 。 根 据 前 面 的 描述 ， 它 的 属性 由 与 联系 Unit-of 
相连 的 实体 集合 的 键 属 性 组 成 。 在 这 个 例子 中 ，Unit-of 的 属性 有 number、studioName ( 弱 
实体 集合 Crews 的 键 属性 ) 和 name (实体 集合 Studios 的 键 属性 )。 要 注意 ， 由 于 Unit-of 是 个 多 
对 一 的 联系 ，studioName 同 name 等 价 。 

例如 ， 假 设 迪 斯 尼 共 3 摄制 组 是 迪斯尼 电影 公司 的 一 员 。 则 联系 unitrof 应 包含 

(Disney-crew-#3, Disney) 

而 转化 为 关系 后 ， 应 包含 元 组 


(3, Disney, Disney) 
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从 这 个 例子 可 以 看 到 ， 属 性 studioName 和 name 经 转化 后 形成 的 元 组 分 量具 有 相同 的 含义 。 
这 就 是 说 ， 可 以 把 属性 studioName 和 mame 合 并 起 来 ， 得 出 它 的 简单 模式 : 
Unit-of (number, name) 
此 时 由 于 联系 Unit-of 的 模式 和 Crews 一 样 ， 就 不 用 对 它 进行 转化 。 口 
从 例 4.30 中 可 以 看 出 ， 支 持 联系 不 需要 转化 为 关系 。 对 于 弱 实 体 集 而 言 ， 这 是 通用 的 。 下 
面 给 出 把 弱 实 体 集 转化 为 关系 的 修改 规则 。 
。 若 W 是 一 个 弱 实体 集 ， 则 W 转 化 为 关系 后 的 模式 组 成 为 : 
1. W 的 所 有 属性 。 
2. 与 W 相 连 的 支持 联系 的 所 有 属性 。 
3. 对 每 一 个 连接 W 的 支持 联系 ， 即 从 W 到 实体 集 E 的 多 对 一 联系 ， 要 包含 E 的 所 有 关键 字 
属性 。 
为 了 避免 同名 冲突 ， 必 要 时 要 对 某 些 属性 进行 重 命名 。 
。 不 要 为 与 W 相 连 的 支持 联系 构造 关系 。 


带 有 子 集 模式 的 关系 

根据 例 4.30， 可 以 想象 只 要 关系 R 的 属性 集合 是 另 一 个 关系 S 属 性 集合 的 子 集 ， 就 可 消 
除 R。 但 是 ， 这 种 说 法 并 不 完全 正确 。 因 为 5 的 附加 属性 不 允许 把 R 的 一 个 元 组 扩张 到 5 的 元 
组 ， 所 以 R 可 能 含有 5S 中 没有 的 信息 。 

例如 ， 国 家 税收 局 (Internal Revenue service) 要 维护 关系 People(name，ss 亲 )， 其 中 
含有 可 能 的 纳税 人 的 名 字 和 他 们 的 社会 保险 号 ， 而 不 管 他 们 是 否 有 收入 。 税 收 局 可 能 还 要 
维护 关系 TaxPayers(name，ss 闪 ，amount)， 其 中 的 属性 amount 表 示 今 年 以 来 每 人 所 交 的 
税金 。Peop1e 的 模式 是 TaxPayers 的 模式 的 子 集 ， 但 可 能 在 People 中 保存 着 TaxPayers 没 有 
的 纳税 人 的 社会 保险 号 。 

事实 上 ， 即 使 是 同一 个 属性 集合 也 会 有 不 同 的 语义 ， 所 以 不 可 能 合并 它们 的 元 组 。 例 
如 ， 对 于 两 个 关系 Stars(name，addr) 和 Studios(name，addr)， 虽 然 它 们 看 起 来 相似 ， 却 
不 能 把 star 的 元 组 改变 为 studio 的 元 组 ， 反 之 亦 然 。 

另 一 方面 ， 如 果 两 个 关系 是 由 弱 实 体 集 构造 转化 过 来 的 ， 则 对 于 有 较 小 属性 集合 的 关 
系 而 言 ， 它 就 没有 附加 的 信息 。 这 是 因为 支持 联系 得 到 的 关系 的 元 组 与 弱 实 体 集 所 得 关系 
的 元 组 一 一 对 应 。 也 就 是 说 ， 此 时 可 以 除去 这 个 具有 较 少 属性 的 关系 。 





4.5.5 习题 

习题 4.5.1 把 图 4-29 中 的 E/R 图 转化 为 一 个 关系 数据 库 模 式 。 

! 习 题 4.5.2 有 另 一 个 可 描述 图 4-29 中 弱 实 体 集 Bookings 的 E/R 图 。 注 意 ， 订 票 可 由 航班 号 (flight 
number)、 航 班 日 期 (day)、 座 位 的 排 号 (row) 和 坐位 号 〈seat) 唯一 确定 ， 因 此 不 需 使 用 顾客 的 信 
息 来 确定 订 票 。 

a) 对 图 4-29 中 的 图 进行 修改 ， 使 其 可 以 反映 新 的 观点 。 
b) 把 (a) 中 所 得 的 图 转化 为 关系 。 所 得 的 关系 数据 库 模 式 与 习题 4.5.1 中 的 相同 吗 ? 

习题 4.5.3 ”图 4-30 中 的 E/R 图 表示 船 ， 如 果 船 (ships) 是 由 同一 份 设计 方案 得 来 的 ， 则 认为 它们 是 姊妹 
(sisters) 船 。 把 这 个 图 转化 为 关系 数据 库 模式 。 

习题 4.5.4 把 下 面 的 E/R 图 转化 为 关系 数据 库 模式 。 

a) 图 4-22。 
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b) 习题 4.4.1 的 答案 。 
c) 习题 4.4.4(a) 的 答案 。 
d) 习题 4.4.4(b) 的 答案 。 





图 4-29 一 个 关于 飞机 航班 的 E/R 图 图 4-30 姊妹 船 的 E/R 图 


4.6 子 类 结构 到 关系 的 转化 


有 几 种 策略 可 以 把 一 个 isa 层 次 实体 集 转化 为 关系 。 对 于 这 种 层次 已 有 的 假定 如 下 : 

。 有 一 个 根 实体 集 。 

。 有 一 个 可 唯一 确定 层次 中 每 个 实体 集 的 键 。 

* 一 个 给 定 的 实体 可 能 会 包含 属于 这 个 层次 中 某 些 子 树 的 实体 集 的 分 量 ， 只 要 这 个 子 树 包 

含 根 。 

主要 的 转化 策略 是 : 

1. 遵照 E/R 观 点 。 为 任 一 个 在 层次 中 的 实体 集 创建 一 个 关系 ， 它 包含 了 根 的 键 属性 和 自身 
属性 。 

2. 把 实体 看 作 属 于 单个 类 的 对 象 。 对 于 每 一 个 包含 了 根 的 子 树 创建 一 个 关系 ， 这 个 关系 
的 模式 包括 了 子 树 中 所 有 实体 集 的 所 有 属性 。 

3. 使 用 空 值 (null value)。 创 建 一 个 包含 层次 中 所 有 实体 集 的 属性 的 关系 。 每 个 实体 由 一 
个 元 组 表示 ， 对 于 实体 没有 的 属性 ， 则 设 该 元 组 的 相应 分 量 为 空 。 

下 面 依次 讨论 上 述 方法 。 
4.6.1 E/R 方 式 转化 

第 一 种 方法 是 同 往常 一 样 给 每 个 实体 集 建立 一 个 关系 。 如 果实 体 集 E 不 是 层次 中 的 根 ， 则 
为 了 能 够 区 别 元 组 表示 的 实体 ， 关 系 E 要 包含 根 的 键 属性 和 E 本 身 属性 。 并 且 ， 如 果 E 和 其 他 
实体 集 有 联系 ， 就 使 用 这 些 键 属性 识别 与 此 联系 对 应 的 关系 中 的 E 实 体 。 

要 注意 的 是 ， 虽 然 “isa” 被 认为 是 联系 ， 但 它 与 其 他 联系 不 同 。 它 连接 的 是 单个 实体 的 
分 量 ， 而 不 是 不 同 的 实体 。 因 此 ， 不 能 为 “isa” 创 建 关 系 。 

例 4.31 考虑 图 4-10 给 出 的 层次 ， 这 里 被 重新 给 出 为 图 4-31。 这 个 层次 中 的 不 同 实体 转化 
成 的 关系 为 : 

1. Movies(tit1le，year，1ength，genre)。 这 个 关系 已 在 例 4.24 中 讨论 过 ， 这 里 每 部 电 
影 由 一 个 元 组 表示 。 

2. MurderMysteries(title，year，weapon)。 开 头 的 两 个 属性 是 电影 的 键 ， 最 后 一 个 属性 
是 实体 集 本 身 的 属性 。 属 于 凶杀 片 的 每 部 电影 在 这 个 关系 中 和 在 Movies 关 系 中 都 有 一 个 元 组 。 


98 第 一 部 分 关东 数据 摩 檬 型 





to Stars 





Murder— 
Cartoons Mysteries 
图 4-31 Movies 层 次 


3. Cartoons(title，year)。 这 个 关系 是 卡通 片 的 集合 。 它 只 包含 了 Movies 的 键 属性 ， 
这 是 因为 关于 卡通 片 的 其 他 信息 均 包含 在 联系 Voices 中 。 每 部 卡通 片 电影 在 这 个 关系 中 和 在 
Movies 关 系 中 分 别 有 一 个 元 组 。 

要 注意 的 是 : 第 四 种 电影 ( 既 属 于 卡通 片 又 属于 凶杀 片 的 电影 ) 在 这 三 个 关系 中 均 有 元 
组 存在 。 

另外 ， 还 要 构造 Stars 和 Cartoons 之 间 联 系 Voices 相 对 应 的 关系 Voices(tit1e，year， 
starName )。 其 中 最 后 一 个 属性 是 Stars 的 键 属性 ， 前 两 个 形成 Cartoons 的 键 。 

例如 ， 电 影 Roger Rabbit 作 为 元 组 将 会 在 这 四 个 关系 中 出 现 。 它 的 基本 信息 在 Movies 中 出 
现 ， 邮 手 的 凶器 (weapon) 在 关系 MurderMysteries 中 出 现 ， 为 此 电影 配音 的 影星 在 关系 
Voices 中 出 现 。 

要 注意 关系 Cartoons 的 模式 是 Voices 关 系 模 式 的 子 集 。 在 很 多 情况 下 ， 不 应 满足 于 消除 
Cartoons 这 样 的 关系 ， 因 为 它 并 未 包含 与 Voices 有 所 不 同 的 信息 。 然 而 ， 在 此 数据 库 中 可 能 
会 有 一 些 无 声卡 通 片 。 这 些 卡 通 片 没有 声音 ， 若 消除 关系 Cartoons ， 于 是 就 会 忽略 掉 这 些 电 
影 也 是 卡通 片 的 信息 。 口 


4.6.2 面向 对 象 方法 

另 一 种 把 isa- 层 次 转化 为 关系 的 方法 就 是 枚 举 层 次 中 所 有 可 能 的 子 树 。 为 每 一 个 子 树 构造 
一 个 可 以 描述 该 子 树 中 实体 的 关系 。 这 个 关系 模式 含有 子 树 中 所 有 实体 集 的 所 有 属性 。 因 为 
这 种 方法 的 前 提 是 假设 这 些 实体 是 属于 且 只 属于 一 个 类 的 “对 象 ”， 所 以 这 种 方法 被 称 为 “ 面 
向 对 象 ” 的 方法 。 

例 4.32 考虑 图 4-31 的 层次 。 有 四 个 可 能 的 包含 根 的 子 树 ; 

1. Movies 本 身 。 

2. 仅 有 Movies 和 Cartoons 。 

3. 仅 有 Movies 和 Murder-Mysteries 。 

4. 所 有 三 个 实体 集 。 

下 面 给 出 这 四 个 类 构造 的 关系 ， 因 为 只 有 Murder-Mysteries 有 自身 的 属性 ， 因 此 实际 上 存 
在 着 重复 ， 这 四 个 关系 是 : 

Movies(title, year, length, genre) 

MoviesC(title, year, length, genre) 


MoviesMM(title, year, length, genre, weapon) 
MoviesCMM(title, year, length, genre, weapon) 
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如 果 Cartoons 有 自身 的 属性 ， 则 所 有 的 四 个 关系 将 会 有 不 同 的 属性 集合 。 然 而 情况 并 不 是 
这 样 ， 所 以 ， 虽 然 会 丢失 一 些 信 息 ， 比 如 委 失 了 属于 卡通 片 的 电影 信息 ， 人 们 仍 可 以 组 合 
Movies 和 MoviesC (创建 不 包含 凶杀 片 的 关系 ) ， 也 可 以 组 合 MoviesMM 和 MoviesCMM (创建 含 
有 所 有 凶杀 片 的 关系 ) 。 

读者 还 需要 考虑 怎样 处 理 连 接 Cartoons 和 Stars 的 联系 Voices。 如 果 Voices 是 一 个 从 
Cartoons 引 出 的 多 对 一 的 联系 ， 就 可 以 增加 一 个 voice 属性 到 MoviesCc 和 MoviesCMM 中 ， 这 个 属 
性 可 以 描述 联系 Voices， 并 且 有 使 这 四 个 关系 模式 不 同 的 副作用 。 可 是 ，Voices 是 一 个 多 对 多 
的 联系 ， 因 此 就 要 为 这 个 联系 单独 创建 一 个 关系 。 如 同 惯例 ， 它 的 关系 模式 包含 了 与 其 相连 
的 实体 集 的 键 属性 。 这 种 情况 下 它 的 模式 为 

Voices(title, year, starName) 

还 可 以 考虑 是 否 有 必要 建立 两 个 这 样 的 关系 ， 一 个 连接 不 是 凶杀 片 的 卡通 片 到 它 的 配音 ， 
另 一 个 连接 是 凶杀 片 的 卡通 片 。 然 而 ， 这 样 做 似乎 并 设 有 带 来 什么 好 处 。 口 


4.6.3 使 用 空 值 组 合 关系 

还 有 另 一 种 表示 实体 集 层 次 信息 的 方法 。 如 果 克 许 元 组 中 有 NULL (就 像 SQL 中 的 空 值 ) 
的 话 ， 就 可 以 对 一 个 实体 集 层次 只 创建 一 个 关系 。 这 个 关系 包含 了 层次 中 所 有 实体 集 的 所 有 
属性 。 一 个 实体 就 表现 为 关系 中 的 一 个 元 组 。 元 组 中 的 NULL 表 示 该 实体 没 定义 的 属性 。 

例 4.33 车 把 这 种 方法 应 用 于 图 4-31， 就 可 以 得 到 相应 的 关系 模式 为 : 

Movie(title, year, length, genre, weapon) 
那些 不 是 凶杀 片 的 电影 在 元 组 的 weapon 属 性 栏 就 以 NULL 表 示 。 但 有 必要 创建 一 个 如 例 4.32 中 
的 voices 关 系 ， 因 为 要 用 它 来 连接 卡通 片 和 为 该 卡通 片 配音 的 影星 。 加 


4.6.4 各 种 方法 的 比较 

上 述 三 种 方法 分 别 被 称 为 “直接 E/R”、“ 面 向 对 象 ” 和 “ 空 值 ”方法 。 它 们 各 自 均 有 优 缺 
点 ， 这 里 列 出 其 主要 的 几 点 。 

1. 由 于 涉及 几 个 关系 的 查询 代价 昂贵 ， 所 以 人 们 宁愿 在 一 个 关系 中 寻找 查询 需要 的 所 有 
属性 .“ 空 值 ”方法 对 于 所 有 的 属性 只 使 用 一 个 关系 ， 在 这 一 点 上 它 有 很 好 的 性 能 。 而 其 他 两 
种 方法 更 适合 于 其 他 类 型 的 查询 。 例 如 ， 

a) 坷 要 查询 “2008 年 的 哪 几 部 影片 放映 时 间 长 于 150 分 钟 ? “， 可 以 直接 从 例 4.31 使 用 的 
“直接 E/R” 方 法 得 到 的 关系 Movies 中 查 到 。 可 是 ， 对 于 例 4.32 使 用 的 “面向 对 象 ”方法 ， 就 
需要 对 Movies、MoviesC、MoviesMM 和 MoviesCMM 进 行 查询 ， 因 为 一 部 长 的 电影 可 能 会 在 这 四 
个 关系 中 出 现 。 

b) 另 一 方面 ， 对 于 像 “ 放 映 时 间 长 于 150 分 钟 的 卡通 片 中 使 用 了 什么 武器 ? ”一 类 的 查询 ， 
使 用 “直接 E/R” 方 法 会 很 麻烦 。 因 为 必须 要 访问 Movies 以 找到 长 于 150 分 钟 的 影片 ， 接 着 访 
问 Cartoons 以 查证 这 部 影片 是 否 是 一 部 卡通 片 ， 然 后 要 访问 MurderMysteries 以 找到 凶器 。 
若 使 用 面向 对 象 的 方法 ， 则 只 需 访 问 关系 MoviesCMNM 就 可 以 找到 所 需 的 所 有 信息 。 

2. 如 果 倾 向 于 用 尽量 少 的 关系 ， 就 可 使 用 “ 空 值 ”的 方法 ， 因 为 它 只 需 一 个 关系 。 然 而 
其 他 两 种 方法 之 间 也 有 不 同 点 ， 在 “直接 E/R” 方 法 中 层次 的 每 个 实体 集 只 转化 为 一 个 关系 。 
而 在 “面向 对 象 ”的 方法 中 ， 如 果 层 次 中 有 一 个 根 和 n 个 孩子 (共有 n+1 个 实体 集 )， 则 就 会 有 
2" 个 不 同 的 实体 类 ， 也 就 要 创建 同样 多 个 关系 。 | 

3. 有 时 可 能 宁愿 减少 空间 和 避免 重复 的 信息 。 因 为 “面向 对 象 ”的 方法 对 每 个 实体 只 


100 莫 一 部 分 “关系 数据 库 模 型 


用 一 个 元 组 ， 并 且 这 个 元 组 只 含有 对 实体 有 意义 的 属性 的 分 量 ， 所 以 这 种 方法 占用 尽 可 能 少 
的 空间 。 虽 然 “ 空 值 ”法 也 是 每 个 实体 一 个 元 组 ， 但 是 这 些 元 组 的 分 量 “ 太 长 ”了 。 也 就 是 
说 ， 它 们 对 所 有 的 属性 都 含有 分 量 ， 而 不 管 对 于 一 个 给 定 实体 它们 是 否 适合 。 如 果 层 次 中 有 
很 多 的 实体 集 ， 而 这 些 实体 集 又 有 很 多 的 属性 ， 那 么 使 用 “ 空 值 ”法 就 会 浪费 大 量 的 空间 。 
“直接 E/R” 法 中 虽说 每 个 实体 对 应 多 个 元 组 ， 但 只 有 关键 字 属 性 重复 了 多 次 。 因 此 ,“ 直 接 
E/R” 法 相对 于 “ 空 值 ”法 而 言 ， 使 用 的 空间 也 可 能 多 也 可 能 少 。 


4.6.5 习题 

习题 4.6.1 使 用 下 面 的 方法 ， 把 图 4-32 中 的 E/R 图 转化 为 关系 数据 库 模式 : 
a) “直接 E/R” 法 。 
b) “面向 对 象 ”法 。 
c) “ 空 值 ”法 。 

! 习 题 4.6.2 使 用 下 面 的 方法 ， 把 图 4-33 中 的 E/R 图 转化 为 关系 数据 库 模式 
a) “直接 E/R” 法 。 
b) “面向 对 象 ”法 。 
c) “ 空 值 ”法 。 





图 4-32 习题 4.6.1 的 E/R 图 图 4-33 习题 4.6.2 的 E/R 图 


习题 4.6.3 ”使 用 下 面 的 方法 ， 把 习题 4.1.7 中 设计 的 E/R 图 转化 为 关系 数据 库 模 式 : 

a) “直接 E/R” 法 。 
b) “面向 对 象 ”法 。 
c] “ 空 值 ”法 。 

! 习 题 4.6.4 ”假设 有 一 个 涉及 实体 集 e 的 isa- 层 次 。 每 个 实体 集 有 a 个 属性 ， 其 中 k 个 是 根 实体 的 属性 ， 形 
成 所 有 实体 集 的 键 。 针 对 下 面 的 转换 方法 ,分 别 给 出 计算 如 下 要 求 的 公式 : (i) 使 用 的 最 少 和 最 多 的 
关系 数量 ，(ii) 单个 实体 元 组 具有 的 最 少 和 最 多 分 量 数 。 

a) “直接 E/R” 法 。 
b) “面向 对 象 ”法 。 
c) “ 空 值 ”法 。 


4.7 统一 建 模 语言 
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UML (统一 建 模 语言 ，Unified Modeling Language) 最 初 是 开发 用 来 在 面向 对 象 风 格 中 作 


为 描述 软件 设计 的 一 种 图 形 化 的 标注 。 它 现在 已 经 做 
了 一 些 扩展 和 更 改 ， 作 为 一 种 流行 的 数据 库 设计 描述 
的 标注 ， 这 也 是 本 节 的 研究 内 容 。 除 了 多 路 联系 外 ， 
UML 提 供 了 与 E/R 模 型 相同 的 能 力 。UML 也 提供 了 将 
带 有 方法 和 数据 的 实体 集 看 作 真 实 类 的 能 力 。 图 4-34 
概括 了 在 ER 和 UML 中 使 用 不 同 术语 描述 的 常用 概念 。 


4.7.1 UML 类 

UML 中 的 类 与 E/R 模 型 中 的 实体 集 类 似 。 尽 管 如 
此 ， 类 的 标注 却 是 非常 不 同 。 图 4-35 显 示 了 与 E/R 实 
体 集 Movies 对 应 的 类 。 

一 个 类 框 分 为 三 个 部 分 。 顶 部 是 类 的 名 字 ， 中 间 
是 它 的 属性 ， 就 像 是 一 个 类 的 实例 变量 一 样 。 在 
Movies 类 中 ， 有 title, year, length 和 genre 属 性 。 

底部 是 方法 。E/R 模 型 和 关系 模式 都 不 提供 方法 。 
然而 ， 这 是 一 个 重要 的 概念 ， 通 常 出 现在 现代 的 关系 
系统 中 ， 称 作 “ 对 象 关 系 ”DBMS ( 见 10.3 节 )。 





实体 集 
二 元 联系 


联系 的 属性 

isa 层 次 

多 对 一 联系 

具有 引用 完整 性 的 多 对 一 联系 





图 4-34 UML 和 E/R 术 语 的 比较 


title PK 
year PK 


length 


genre 


<place for methods> 


图 4-35 UML 中 的 Movies 类 


例 4.34 ”可 以 认为 已 添加 了 一 个 实例 方法 lengthInHours()。UML 只 说 明 阐 述 一 个 方法 的 参 
数 类 型 和 它 的 返回 值 ， 没 有 其 他 更 多 的 东西 。 也 许 这 个 方法 返回 一 个 length/60.0， 但 设计 时 不 


知道 这 些 。 














这 一 节 的 设计 中 将 不 使 用 方法 。 这 样 ， 在 UML 类 框 将 只 有 两 个 部 分 ， 即 类 的 名 字 和 属性 。 


4.7.2 UML 类 的 键 


像 实 体 集 那样 ， 可 以 给 UML 类 指定 一 个 键 。 其 方法 是 ， 在 每 个 键 属性 的 后 面 用 字母 PK 标 
明 ， 表示 “主键 "。 没 有 方便 的 方法 来 规定 多 个 属性 或 者 属性 集 是 键 。 
例 4.35 ”在 图 4-35 中 ， 制 定 了 标准 的 假设 条 件 ，title 和 year 合 在 一 起 组 成 Movies 的 键 。 注 


意 ，PK 出 现在 这 些 属性 而 不 是 其 他 属性 的 后 面 。 
4.7.3 关联 


口 


在 类 之 间 的 二 元 联系 称 为 关联 (association)。UML 中 没有 相似 的 多 路 联系 。 一 个 多 路 联 
系 却 可 以 拆 成 几 个 二 元 的 联系 ， 就 像 在 4.1.10 节 建议 的 那样 。 这 里 的 关联 可 以 确切 地 解释 为 


4.1.5 节 联系 集中 描述 的 联系 那样 。 关 联 是 对 象 对 的 集合 ， 


每 个 对 象 来 自 它 连接 的 类 。 


两 个 类 之 间 构 建 一 个 UML 的 关联 只 需 简单 地 通过 在 这 两 个 类 之 间 划 一 条 线 ， 并 给 这 条 线 
一 个 名 字 。 通 常 ， 名 字 放 置 在 线 的 下 面 。 例 如 ， 图 4-36 是 与 图 4-17 的 E/R 图 类 似 的 UML。 这 里 
有 两 个 关联 : Stars-in 和 Owns。 第 一 个 连接 Movies 和 Stars， 第 二 个 连接 Movies 和 Studios 。 

每 个 与 其 他 类 关联 的 类 在 连接 的 对 象 的 数量 上 有 一 定 约 束 。 这 种 约束 通过 在 每 个 连接 线 
的 末端 用 一 个 m..n 标 签 形式 来 表明 。 标 签 的 意义 是 这 一 端 至 少 有 以 个 对 象 、 至 多 有 nn 个 对 象 与 


另外 一 端的 对 象 连接 。 另 外 ， 


。 标 签 形式 中 ， 用 * 代 替 n (例如 m..*) 表示 “无 限 ”， 即 设 有 上 限 。 
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Movies 


图 4-36 UML 中 的 Movies、Stars 和 Studios 


。 单 独 的 * (代替 m..n) 表示 区 间 0..*， 即 对 象 的 数目 没有 任何 约束 。 

。 如 果 在 关联 的 末端 没有 任何 标签 ， 那 么 相当 于 标签 1..1， 也 就 是 “只 有 一 个 "。 

例 4.36 ”图 4-36 中 ，Movies 的 两 个 关联 的 末端 都 是 0..*。 这 说 明 一 个 影星 出 现在 0 个 或 者 
更 多 的 电影 中 ， 一 个 电影 公司 拥有 0 个 或 者 更 多 部 电影 ， 也 就 是 说 对 它们 没有 什么 约束 。 关 联 
Stars-in 的 Stars 末 端 也 有 个 0..*， 说 明 一 部 电影 具有 任意 数量 的 明星 。 可 是 ， 在 关联 Owns 的 
Studios 末 端的 标注 是 0..1， 这 意味 着 0 个 或 者 1 个 Studio。 也 就 是 说 ， 一 个 给 定 的 电影 可 以 属于 
一 个 电影 公司 或 者 不 属于 数据 库 中 的 任何 电影 公司 。 注 意 ， 这 个 约束 确切 地 表达 了 图 4-17 的 
E/R 图 中 指向 Studios 的 箭头 所 表达 的 意义 。 口 





图 4-37 在 UML 中 表达 引用 完整 性 


例 4.37 图 4.37 的 UML 图 试图 表达 图 4.18 的 E/R 图 的 镜像 。 这 里 关于 电影 和 电影 公司 关联 
的 数量 的 假设 与 例子 4.36 多 少 有 些 不 同 。 在 Owns 的 Movies 端 标注 1..* 表 明 每 个 电影 公司 必须 
要 拥有 至 少 一 部 电影 (否则 ， 它 不 是 一 个 真正 的 电影 公司 ) 。 对 于 一 个 电影 公司 能 有 多 少 部 电 
影 仍然 没有 上 限 。 

在 Owns 的 Studios 端 有 标记 1..1， 它 表明 一 部 电影 一 定 只 能 属于 某 个 电影 公司 。 不 可 能 像 
图 4-36 所 示 那 样 ， 一 部 电影 不 属于 任何 电影 公司 。 标 注 1..1 确 切 地 表明 了 E/R 图 中 圆 形 箭头 的 

在 电影 公司 和 制 片 经 理 之 间 有 关联 Runs。 该 关联 的 Studios 端 有 标注 1..1。 也 就 是 说 ， 一 个 
制 片 经 理 一 定 是 一 个 电影 公司 的 经 理 。 它 同样 表示 了 图 4-18 中 从 Presidents 到 Studios 之 间 圆 箭 
头 的 约束 。 在 关联 Runs 的 另 一 端 是 标注 0..1。 它 表明 一 个 电影 公司 至 多 可 以 有 一 个 经 理 ， 但 它 
可 能 有 时 候 疫 有 经 理 。 它 也 确切 地 表达 了 人 尖 稍 头 的 约束 意义 。 口 
4.7.4 自 关 联 


一 个 关联 的 两 端 可 以 连接 同一 个 类 ， 这 样 的 关联 被 称 为 自 关联 (Self-association) 。 为 了 
区 分 一 个 类 在 自 关 联 中 表现 的 不 同 角色 ， 分 别 给 这 个 关联 的 两 端 一 个 名 字 。 
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例 4.38 图 4-38 表 示 电 影 续篇 的 关联 。 这 个 关联 的 每 端 连接 的 都 是 Movies 类 。 在 
TheOriginal 端 指向 最 初 的 那 部 电影 ,并且 它 的 标注 是 0..1。 
也 就 是 说 ， 对 于 一 个 续篇 的 电影 ， 必 定 会 有 一 部 最 初 的 
电影 。 然 而 ， 有 些 电 影 不 是 任何 电影 的 续篇 。 另 一 方面 ， 
TheSequel 有 0..* 的 标注 。 原 因 是 一 部 电影 可 以 有 任意 数量 
的 续篇 。 注 意 ， 这 里 有 这 样 的 观点 ， 就 是 一 部 最 初 的 电 
影 有 任意 数目 的 续篇 ， 一 个 续篇 是 一 个 最 初 的 电影 的 续 
篇 ， 而 不 是 它 前 一 个 电影 的 续篇 。 例 如 ，Rocky II 到 
Rocky V 都 是 Rocky 的 续篇 。 但 不 假设 Rocky IV 是 Rocky II 的 一 个 续篇 ， 等 等 。 百 


4.7.5 关联 类 

可 以 用 曾 在 E/R 模 型 中 的 方法 将 属性 附加 到 一 个 关联 中 ， 见 4.1.9 节 。。 在 UML 中 ， 我 们 创 
建 一 个 新 类 ， 称 作 关 联 类 (association class)， 并 且 将 它 放 置 在 关联 的 中 间 。 关 联 类 具有 它 自 
己 的 名 字 ， 但 它 的 属性 可 认为 是 它 依 附 的 关联 的 属性 。 

例 4.39 假设 想 在 Movies 和 Stars 之 间 的 关联 Star-in 里 添加 一 些 关 于 影星 收 到 电影 补助 的 信 
息 。 这 个 信息 与 电影 无 关 (不 同 影星 得 到 不 同 的 薪水 ) ， 也 与 影星 无 关 (影星 可 以 从 不 同 的 电 
影 得 到 不 同 的 薪水 )。 这 样 ， 必 须 将 这 个 信息 附 在 关联 自身 上 。 也 就 是 说 ， 每 个 电影 一 影星 对 
都 有 自己 的 薪水 信息 。 

图 4-39 用 一 个 Compensation 关 联 类 表示 Stars-in 关 联 。 这 个 类 有 两 个 属性 ， salary 和 residuals 。 
注意 ，Compensation 类 没有 主 关 键 字 。 当 将 一 个 像 图 4-39 这 样 的 图 转化 为 关系 的 时 候 ， 
Compensation 的 属性 将 附 在 为 电影 一 影星 对 创建 的 元 组 上 ， 就 像 4.5.2 节 中 描述 的 联系 那样 。 “ 口 







title PK 
year PK 
length 


genre 







人 帮 TheSequel 
图 4-38 表示 电影 续篇 的 自 关联 


salary 
residuals 


图 4-39 用 一 个 Compensation 关 联 类 表示 Stars-in 关 联 





4.7.6 UML 中 的 子 类 

任何 UML 类 在 它 下 面 可 以 有 一 个 子 类 的 层次 。 主 键 来 自 根 层次 ， 就 像 是 E/R 模 型 的 层次 。 
依赖 于 对 下 面 两 个 问题 答案 的 选择 ，UML 允 许 一 个 类 C 有 4 个 不 同 的 子 类 : 

1. 完整 对 局 部 (Complete versus Partial) 。 每 个 在 类 C 中 的 对 象 是 否 是 某 个 子 类 的 一 个 成 
员 ? 如 果 是 ， 子 类 是 完整 的 ， 否则 ， 它 们 是 局 部 的 或 者 不 完整 的 。 

2. 分 离 对 重合 (Disjoint versus Overlapping ) 。 子 类 是 分 离 的 (Disjoint) (一 个 对 象 不 能 
在 两 个 子 类 中 ) 吗 ? 如果 一 个 对 象 可 以 在 两 个 或 多 个 子 类 中 ， 那 么 子 类 可 以 称 为 是 重合 的 
(Overlapping ) 。 

注意 ， 这 些 问 题 的 决策 发 生 在 任何 一 个 层次 ， 并 且 这 些 决 策 在 每 个 点 上 可 以 相互 独立 地 
制定 。 


日 可 是 ， 图 4-7 中 的 例子 不 能 直接 实现 ， 因 为 那个 联系 是 三 路 联系 。 
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上 面 给 出 的 UML 子 类 中 ， 在 面向 对 象 系统 和 E/R 的 标准 子 类 标注 上 ， 有 几 个 有 趣 的 联系 。 

“在 一 个 典型 的 面向 对 象 系统 中 ， 子 类 是 分 离 的 。 也 就 是 说 ， 没 有 对 象 可 以 在 两 个 类 中 。 

当然 ， 它 们 从 它们 的 父 类 那里 继承 属性 ， 因 此 从 某 种 意义 上 讲 ， 一 个 对 象 也 “属于 ” 它 

们 的 父 类 。 尽 管 如 此 ， 对 象 不 能 在 一 个 兄弟 类 中 。 

*E/R 模 型 自动 地 允许 重 有 公子 类 。 

“BE/R 模 型 和 面向 对 象 系统 都 允许 完整 的 或 者 局 部 的 子 类 。 也 就 是 说 ， 不 需要 一 个 超 类 的 

成 员 在 任何 子 类 中 。 

和 任何 类 一 样 ， 子 类 由 和 矩形 来 表示 。 假 设 一 个 子 类 从 它 的 超 类 继承 了 特征 (属性 和 关联 )。 
可 是 ， 任 何 额外 的 属于 子 类 的 属性 都 显示 在 那个 子 类 的 方 框 中 ， 并 且 子 类 可 以 有 自己 的 、 额 
外 的 与 其 他 类 的 关联 。 为 了 表达 UML 图 中 的 类 / 子 类 联系 ， 使 用 一 个 三 角形 的 空 的 箭头 指向 超 
类 。 子 类 通常 都 是 用 一 条 水 平 线 连 接着 那个 箭头 。 





to Voices 


derMysteries 


图 4-40 卡通 和 谋杀 故事 作为 电影 分 离 的 子 类 


例 4.40 ”图 4-40 给 出 了 一 个 来 自 4.1.11 节 的 子 类 例子 的 UML。 可 是 ， 不同 于 E/R 子 类 ， 它 
们 需要 重合 ， 这 里 选择 了 子 类 分 离 。 当 然 ， 它 们 是 局 部 的 ， 因 为 许多 电影 既 不 是 卡通 片 也 不 
是 凶杀 片 。 

因为 选择 的 子 类 是 分 离 的 ， 就 必须 有 用 于 电影 的 第 三 个 子 类 ， 像 Roger Rabbit 既 是 卡通 片 
也 是 凶杀 片 。 注 意 ， 类 MurderMysteries 和 Cartoon-MurderMysteries 都 有 附加 的 属性 weapon， 
而 两 个 子 类 Cartoons 和 Cartoon-MurderMysteries 都 和 看 不 见 的 类 Voices 有 关联 。 


4.7.7 聚集 与 组 合 

对 于 多 对 一 的 关联 有 两 个 特殊 的 标记 ， 它 们 的 含义 相当 微妙 。 一 方面 ， 它 们 影响 了 面向 
对 象 的 编程 风格 ， 通 常 对 于 一 个 类 在 它 的 属性 之 间 都 有 到 其 他 类 的 引用 。 另 一 方面 ， 这 些 特 
殊 的 标注 确实 约束 图 如 何 转化 为 关系 ， 这 方面 的 内 容 将 在 4.8.3 节 中 讨论 。 

聚集 (aggregation) 是 在 两 个 类 之 间 的 一 条 线 ， 这 条 线 的 末端 是 一 个 空 的 菱形 。 菱 形 的 
含义 是 那 端的 标注 一 定 要 为 0..1， 也 就 是 说 ， 聚 集 是 一 个 从 这 端的 类 到 凌 形 端 类 的 多 对 一 的 关 
联 。 尽 管 聚集 是 一 个 关联 ， 但 不 必 对 它 命 名 ， 因 为 名 字 在 关系 的 实现 中 不 会 被 用 到 。 

组 合 (composition) 与 关联 相似 ， 但 在 菱形 端的 标注 一 定 要 为 1..1。 也 就 是 说 ， 与 凌 形 对 
应 相连 的 类 的 每 个 对 象 都 要 与 菱形 端的 一 个 对 象 相连 接 。 组 合 的 萎 形 是 实心 的 黑色 。 

例 4.41 图 4-41 给 出 了 聚集 和 组 合 的 例子 。 它 修改 并 详细 描述 了 图 4-37 的 情形 。 图 中 可 以 
看 到 从 Movies 到 Studios 的 组 合 。 在 Movies 端 的 标记 1..* 表 明 一 个 电影 公司 至 少 拥有 一 部 电影 。 
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在 鞭 形 端 不 需要 标注 ， 因 为 空心 的 菱形 表示 了 0..1 标 注 。 也 就 是 说 ， 一 部 电影 可 以 有 或 者 可 以 
没有 与 一 个 电影 公司 相关 联 ， 但 不 可 能 与 多 于 一 个 的 电影 公司 相关 联 。 还 有 一 个 含义 就 是 
Movies 对 象 将 包含 一 个 到 它们 自身 Studios 对 象 的 引用 。 如 果 那 部 电影 没有 被 一 个 电影 公司 拥 


有 ， 那 个 引用 可 以 为 空 。 


cert# PK 
name 
address 
networth 











; 


图 4-41 从 Movies 到 Studios 的 聚集 与 从 Presidents 到 Studios 的 组 合 


在 右边 ， 可 以 看 到 类 MovieExecs 带 有 一 个 子 类 President。 有 一 个 从 Presidents 到 Studios 的 组 
合 ， 这 意味 着 每 个 经 理 都 应 该 是 一 个 电影 公司 的 经 理 。 在 Studios 端 的 实心 菱形 暗含 了 标记 1..1。 
组 合 的 含义 是 Presidents 对 象 将 含有 一 个 到 Studios 对 象 的 引用 ， 并 且 这 个 引用 不 能 为 空 。 口 


4.7.8 习题 

习题 4.7.1 给 习题 4.1.1 的 问题 画 一 个 UML 图 。 

习题 4.7.2 ”根据 习题 4.1.2 的 需求 修改 你 的 习题 4.7.1 的 图 。 

习题 4.7.3 ”使 用 UML 重 做 习题 4.1.3。 

习题 4.7.4 ”使 用 UML 重 做 习题 4.1.6。 

习题 4.7.5 使 用 UML 重 做 习题 4.1.7。 你 的 子 类 是 分 离 的 还 是 重 肥 的 ? 是 完整 的 还 是 局 部 的 ? 
习题 4.7.6 ”使 用 UML 重 做 习题 4.1.9。 

习题 4.7.7 ”将 图 4-30 的 E/R 图 转化 为 一 个 UML 图 。 

! 习 题 4.7.8 你 如 何 用 UML 表 示 Contracts 在 电影 、 影 星 和 电影 公司 ( 见 图 4-4) 之 间 的 三 路 联系 ? 

! 习 题 4.7.9 使 用 UML 重 做 习题 4.2.5。 

习题 4.7.10 ”通常 ， 用 六 .mn 标注 来 约束 关联 的 时 候 ，m 和 xz 都 各 自 是 0、1 或 者 *。 给 出 一 些 关 联 的 例子 ， 
让 m 和 n 中 至 少 一 个 有 些 不 同 。 


4.8 ”UML 图 到 关系 的 转化 


许多 将 E/R 图 转化 为 关系 的 想法 对 于 UML 也 是 一 样 。 因 此 本 节 将 简短 地 回顾 那些 重要 的 
技巧 ， 重 点 阐述 两 个 建 模 方法 之 间 的 差异 。 


4.8.1 UML 到 关系 的 基础 知识 
下 面 概述 在 4.5 节 的 讨论 中 已 经 熟悉 的 几 点 : 
。 类 到 关系 (Class to Relation)。 对 于 每 个 类 ， 创 建 一 个 关系 ， 关 系 的 名 为 这 个 类 的 名 字 ， 
关系 的 属性 就 是 这 个 类 的 属性 。 
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“关联 到 关系 (Association to Relation ) 。 对 于 每 个 关联 ， 创 建 一 个 名 字 为 关联 名 的 关系 。 
关系 的 属性 是 两 个 连接 类 的 键 属性 。 如 果 恰 巧 两 个 类 的 属性 名 字 相 同 ， 那 么 适当 地 重 命 
名 它们 。 如 果 有 一 个 关联 类 附 在 这 个 关联 上 ， 那 么 在 这 个 关系 的 属性 中 包含 那个 关联 类 
的 属性 。 

例 4.42 考虑 图 4-36 中 的 UML 图 。 对 图 中 的 三 个 类 创建 如 下 关系 : 


Movies(title, year, length, genre) 
Stars(name, address) 
Studios (name, address) 


对 两 个 关联 创建 如 下 关系 : 


Stars-In(movieTitle, movieYear, starName) 
Owns (movieTitle, movieYear, studioName) 


注意 ， 为 了 意图 清晰 ， 即 便 没有 必要 这 样 做 ， 属 性 的 名 字 也 自由 地 作 了 修改 。 
对 于 另 一 个 例子 ， 考 虑 图 4-39 的 UML 图 ， 该 图 表示 了 一 个 关联 类 。 类 Movies 和 Stars 的 关 
系 与 上 面 的 相同 。 可 是 ， 对 于 关联 ， 将 有 如 下 的 关系 : 
Stars-In(movieTitle, movieYear, starName, salary, residuals) 
也 就 是 说 ， 除 了 关键 字 属 性 外 ， 还 添加 了 关联 类 Compensation 的 两 个 属性 。 注 意 ， 并 没有 为 
Compensation 自 身 创建 关系 。 口 


4.8.2 从 UML 子 类 到 关系 

4.6 节 列举 的 三 个 方案 也 同样 可 以 应 用 到 UML 子 类 层次 。 回 顾 这 些 方案 是 “E/R 模 式 ”( 每 
个 子 类 的 关系 仅 有 键 属性 和 该 子 类 属性 )、“ 面 向 对 象 ”( 每 个 实体 在 一 个 子 类 的 关系 中 ) 和 
“使 用 空 值 ”( 所 有 子 类 用 一 个 关系 表示 )。 可 是 ， 如 果 有 关于 子 类 是 否 是 分 离 的 还 是 重合 的 、 
是 完整 的 还 是 局 部 的 信息 ， 那 么 这 三 种 方案 中 一 个 或 男 一 个 更 合适 。 下 面 是 要 考虑 的 几 点 : 

1. 如 果 层 次 的 每 一 层 都 是 分 离 的 ， 那 么 建议 使 用 面向 对 象 方法 。 当 构建 关系 时 不 需 考 虑 
每 个 可 能 的 子 类 树 ， 因 为 每 个 对 象 仅仅 属 于 一 个 类 和 它 的 祖先 。 因 此 ， 就 不 可 能 会 有 指数 级 
激增 数目 的 关系 要 被 创建 。 

2. 如 果 层 次 在 每 一 层 既 是 完整 的 又 是 分 离 的， 那么 任务 相对 简单 。 如 果 使 用 面向 对 象 的 
方法 ， 那 么 只 要 为 层次 中 叶子 节点 的 类 构建 关系 。 

3. 如 果 层 次 很 大 并 且 在 某 些 或 者 所 有 的 层 上 是 重 登 的 ， 那 么 E/R 方 法 是 合适 的 。 可 能 会 需 
要 很 多 的 关系 使 得 关系 数据 库 模 式 变 得 爱 肿 。 


4.8.3 从 聚集 与 组 合 到 关系 

聚集 与 组 合 都 是 多 对 一 类 型 的 关联 。 这 样 ， 在 关系 数据 库 模式 中 表示 它们 的 方法 是 像 
4.8.1 市 中 对 任何 关联 做 的 那样 进行 转换 。 因 为 这 些 元 素 在 UML 图 中 不 需 命名 ， 因 此 需要 为 相 
关 的 关系 构造 一 个 名 字 。 

可 是 ， 有 一 个 隐 含 的 假设 使 罕 集 与 组 合 的 实现 令 人 讨厌 。 回 想 4.5.3 节 ， 当 有 一 个 实体 集 E 
和 一 个 从 E 到 男 一 个 实体 集 F 的 多 对 一 联系 R 时 ， 可 以 (有 人 称 为 职责 ) 将 关系 E 与 关系 R 合 并 。 
也 就 是 说 ， 一 个 由 E 和 RR 构建 的 关系 具有 所 有 E 的 属性 加 上 F 的 键 属性 。 

这 里 建议 聚集 与 组 合 被 例行公事 地 用 如 下 方式 处 理 。 不 为 聚集 与 组 合 构建 任何 关系 。 而且， 
为 非 凌 形 端的 类 添 加 鞭 形 端 类 的 键 属 性 。 在 聚集 情况 下 (不 是 组 合 ) ， 这 些 属性 可 以 为 空 。 

例 4.43 考虑 图 4-41 中 的 UML 图 。 由 于 有 一 个 小 的 层次 ， 所 以 需要 决定 MovieExecs 和 
Presidents 将 如 何 转换 。 我 们 采用 E/R 方 法 ， 所 以 Presidents 关 系 仅 仅 从 MovieExecs 那 里 获得 
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cert# 属 性 。 

从 Movies 到 Studios 的 聚集 由 将 Studios 的 键 name 放 置 在 关系 Movies 的 属性 中 来 表示 。 从 
Presidents 到 Studios 的 组 合 也 可 以 由 将 Studios 的 键 添加 到 关系 Presidents 中 来 表示 。 没 有 为 聚 
集 或 组 合 创建 的 关系 。 下 面 是 从 这 个 UML 图 创建 的 所 有 关系 : 


MovieExecs(cert#, name, address, netWorth) 
Presidents(cert#, studioName) 

Movies(title, year, length, genre, studioName) 
Studios (name, address) 


与 前 面 一 样 ， 为 清晰 起 见 对 属性 的 名 字 做 了 一 些 改动 。 下 


4.8.4 UML 与 弱 实 体 集 的 类 比 

在 UML 的 标注 中 没有 提 到 与 E/R 模 型 中 双边 标注 相对 应 的 弱 实 体 集 。 其 实 没 有 什么 必要 。 
原因 是 ， 与 E/R 不 同 ，UML 遵 循 面向 对 象 系统 的 传统 ， 每 个 对 象 都 有 自己 的 对 象 标识 (object- 
identity) 。 也 就 是 说 ， 即 使 它们 的 每 个 属性 和 其 他 性 质 都 具有 相同 的 值 ， 两 个 对 象 也 可 以 区 分 
开 来 。 对 象 标识 可 以 典型 地 看 作 一 个 引用 或 者 指向 对 象 的 指针 。 

在 UML 中 ， 可 以 持 有 这 样 观点 ， 即 属于 一 个 类 的 对 象 同 样 地 有 一 个 对 象 标识 。 这 样 ， 即 
使 已 有 的 类 的 属性 不 能 唯一 标识 一 个 类 的 对 象 ， 也 可 以 创建 一 个 新 的 属性 来 作为 对 应 关系 的 
键 并 表示 对 象 的 对 象 标识 。 

可 是 ， 在 UML 中 ， 也 有 可 能 像 在 E/R 模 型 中 为 弱 实 体 集 使 用 支持 联系 一 样 使 用 一 个 组 合 。 
这 个 组 合 从 “ 弱 ” 类 (不 提供 键 属性 的 类 ) 到 “支持 ”类 。 如 果 存 在 几 个 “支持 ”类 ， 那 么 
可 以 使 用 几 个 组 合 。 支 持 (supporting) 组 合 使 用 一 种 特殊 的 标注 : 一 个 带 有 字母 “PK” 的 弱 
类 框 将 作为 一 个 支持 组 合 的 锁 。 其 含义 是 在 组 合 另 外 一 端的 支持 类 的 键 属性 是 弱 类 键 的 一 部 
分 ， 连 同 弱 类 的 任 一 属性 被 标记 为 “PK”。 像 弱 实 体 集 一 样 ， 可 以 有 几 个 支持 的 组 合 和 类 ， 
并 且 那 些 支持 类 可 以 自身 是 弱 的 ， 在 这 种 情况 下 规则 就 正好 可 以 递归 地 应 用 。 

例 4.44 ”图 4-42 表 示 了 例 4.20 中 弱 实 体 集 Crews 的 相似 体 。 存 在 一 个 从 Crews 到 Studios 的 


组 合 ， 有 一 个 附加 标记 “PK” 的 框 来 表明 这 个 组 合 提供 了 Crews 的 部 分 键 。 口 
图 4-42 所 示 的 将 弱 结构 体 转化 为 关系 方法 正 [Cg | 0 1 

像 在 4.5.4 节 做 的 那样 。 通 常 有 一 个 对 应 于 类 一 [ER is 

Studios 的 关系 。 通 常 没有 对 应 于 组 合 的 关系 。 类 | crewChief 


Crews 的 关系 不 仅 包 含 它 自身 的 属性 number， 也 
包含 在 组 合 未 端的 类 Studios 的 键 。 
例 4.45 例 4.44 的 关系 如 下 : 


Studios (name, address) 
Crews (number, crewChief, studioName) 


与 前 面 的 处 理 一 样 ， 为 了 清晰 起 见 在 Crews 关 系 中 重 命名 了 Studios 的 属性 name。 


number PK 


图 4-42 由 组 合 和 类 Studios 支 持 的 弱 类 Crews 


口 


day PK 


aircraft 





图 4-43 与 图 4-29 中 E/R 图 类 似 的 UML 图 
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4.8.5 习题 

习题 4.8.1 将 图 4-43 的 UML 图 转化 为 关系 。 

习题 4.8.2 将 下 面 的 UML 图 转化 为 关系 。 
a) 图 4-37 。 

b) 图 4-40。 

c) 习题 4.7.1 的 解 。 
d) 习题 4.7.3 的 解 。 
e) 习题 4.7.4 的 解 。 
f) 习题 4.7.6 的 解 。 

! 习 题 4.8.3 ”使 用 面向 对 象 的 方法 ， 针 对 如 下 的 一 个 三 级 层次 要 创建 多 少 关系 ? 这 个 三 级 层次 的 第 一 层 
和 第 二 层 的 每 个 类 有 三 个 子 类 ， 并 且 其 层次 是 : 
a) 在 每 一 层 是 分 离 的 和 完整 的 。 

b) 在 每 一 层 是 分 离 的 但 不 是 完整 的 。 
c) 既 不 是 分 离 的 也 不 是 完整 的 。 


4.9 ”对象 定义 语言 


ODL (对 象 定义 语言 ，Object Definition Language) 是 一 种 基于 文本 的 使 用 面向 对 象 术 语 
描述 数据 库 结 构 的 语言 。 像 UML 一 样 ， 类 是 ODL 中 的 核心 概念 。 就 像 UML 类 一 样 ，ODL 中 的 
类 具有 名 字 、 属 性 和 方法 。 联 系 与 UML 的 关联 类 似 ， 但 是 在 ODL 中 它 不 是 一 个 独立 的 概念 ， 
而 是 可 以 作为 特征 的 附加 成 员 伐 入 到 类 中 。 


4.9.1 类 声明 
ODL 中 一 个 最 简单 的 类 声明 形式 如 下 : 


class <name> { 
<list of properties> 


这 里 关键 字 c1ass 后 面 跟 着 类 名 字 和 一 个 括号 括 起 的 特征 的 列表 。 特 征 可 以 是 属性 、 联 系 或 者 
方法 。 
4.9.2 ODL 中 的 属性 

最 简单 的 特征 是 属性 (attribute)， 在 ODL 中 ， 属 性 不 必 为 整 型 和 字符 串 型 等 简单 类 型 。 
ODL 有 一 个 类 型 系统 ， 它 允许 构建 结构 类 型 和 集合 类 型 ， 第 4.9.6 节 将 详细 介绍 类 型 系统 。 例 
如 ， 属 性 address 可 以 是 由 街道 、 城 市 和 邮政 编码 等 字段 构成 的 结构 类 型 。 属 性 phone 可 以 是 
字符 串 集合 作为 类 型 ， 其 至 可 以 是 更 为 复杂 的 类 型 。 属 性 是 在 该 类 的 声明 中 由 关键 字 
attribute、 属 性 的 类 型 和 名 字 表 示 。 


class Movie { 
attribute string title; 
attribute integer year; 


attribute integer length; 
attribute enum Genres 
{drama, comedy, sciFi, teen} genre; 





图 4-44 Movie 类 的 ODL 声 明 


例 4.46 ”图 4-44 中 是 一 个 电影 类 的 ODL 声 明 ， 它 并 不 完整 ， 以 后 还 会 加 以 丰富 。 第 (1) 行 


条 4 章 ”高 级 数据 府 柑 型 109 


声明 了 该 类 的 类 名 为 Movie， 接 下 来 是 所 有 Movie 对 象 所 共有 的 四 个 属性 的 声明 。 

第 (2)、(3) 和 (4) 行 声明 了 三 个 属性 : title、year 和 1length。 第 一 个 属性 是 字符 串 类 型 ， 
其 他 两 个 是 整 型 。 第 (5) 行 声明 的 属性 genre 是 枚 举 型 。 枚 举 的 名 字 (字符 常数 列表 ) 是 genre， 
属性 genre 人 允许 的 四 个 值 是 drama、comedy、sciFi 和 teen。 枚 举 类 型 (enumeration) 必须 有 
一 个 名 字 ， 它 可 以 用 来 表示 相同 的 类 型 。 口 


为 何 要 为 枚 举 型 和 结构 命名 ? 
图 4-44 中 的 枚 举 类 型 Genres 似 乎 没 起 到 什么 作用 。 可 是 ， 通 过 给 这 个 符号 常数 集合 一 


个 名 字 ， 就 可 以 在 其 他 任何 地 方 引 用 它 ， 包 括 在 其 他 类 的 声明 中 。 在 某 个 其 他 类 中 ， 域 名 
(scoped name) Movie::Genres 可 以 用 来 在 Movie 类 中 指向 这 个 枚 举 类 型 的 定义 。 





例 4.47 ”在 例 4.46 中 ， 每 个 属性 都 是 原子 类 型 ， 本 例 将 给 出 一 个 复杂 类 型 的 例子 。 可 以 定 
义 Star 类 如 下 : 

1) class Star { 

2) attribute string name; 

3) attribute Struct Addr 

{string street, string city} address; 
}; 

第 (2) 行 声明 属性 (影星 的 ) name 为 字符 串 型 ， 第 (3) 行 声明 了 另 一 个 属性 address， 这 个 属性 
的 类 型 是 一 个 记录 结构 (record structure)。 结 构 名 为 Addr ， 它 由 两 个 字段 构成 : street 和 
city， 都 是 字符 串 型 。 一 般 而 言 ， 在 ODL 中 ， 用 户 可 以 使 用 关键 字 Struct 定 义 一 个 记录 结构 
类 型 ， 并 用 大 括号 将 其 字段 名 以 及 相应 的 类 型 列表 括 起 来 。 与 枚 举 型 一 样 ， 结 构 类 型 也 要 有 
名 字 ， 这 样 其 他 地 方 就 可 以 使 用 该 类 型 。 口 


4.9.3 ODL 中 的 联系 

ODL 联 系 是 在 类 的 声明 里 面 通过 关键 字 relationship、 类 型 和 联系 名 字 来 声明 。 联 系 类 
型 描述 了 类 的 一 个 单个 对 象 与 这 个 联系 连接 。 典 型 地 ， 这 个 类 型 可 以 是 另外 一 个 类 (如 果 联 
系 是 多 对 一 的 ) 或 者 一 个 集合 类 型 (如果 联系 是 一 对 多 或 者 多 对 多 ) 。 下 面 将 通过 例子 来 展示 
复杂 的 类 型 ， 直 到 4.9.6 节 完整 地 描述 类 型 系统 。 

例 4.48 假设 要 给 例 4.46 中 的 Movie 类 声明 增加 一 个 属性 : 一 组 影星 。 更 精确 地 说 ， 是 要 求 
”每 个 Movie 对 象 都 与 一 组 Star 对 象 ( 该 电影 的 影星 ) 连接 。 表 达 两 个 类 Movie 和 Star 之 间 连 接 
的 最 好 的 方式 就 是 使 用 联系 (relationship)。 该 联系 可 以 在 Movie 类 声明 中 用 以 下 代码 行 实现 : 

relationship Set<Star> stars; 


这 就 可 以 说 ， 在 每 个 Movie 类 的 对 象 中 ， 都 有 一 组 对 Star 对 象 的 引用 。 这 组 引用 命名 为 stars。 口 


4.9.4 反 向 联系 

上 面 的 联系 提供 了 一 种 方法 ， 使 得 人 们 可 以 从 一 部 给 定 的 电影 中 访问 在 该 部 影片 中 演出 
的 影星 。 同 样 ， 有 时 也 希望 能 知道 某 个 特定 的 影星 演 过 的 影片 。 为 了 得 到 这 类 信息 ， 要 在 
Star 类 的 声明 中 ( 见 例 4.47) 为 5tar 对 象 加 入 以 下 代码 : 

relationship Set<Movie> starredIn; 
但 是 这 种 方式 忽略 了 Movie 对 象 与 5tar 对 象 之 间 联 系 的 一 个 重要 方面 。 如 果 一 位 影星 5S 在 电影 
M 的 stars 和 集合 中 ， 那 么 M 也 应 该 在 S$ 的 starredIn 和 集中 。 要 表示 stars 和 staredIn 之 间 的 这 种 
联系 ， 就 要 在 其 每 一 个 声明 中 加 上 关键 字 inverse 以 及 其 反 向 联系 的 名 字 。 如 果 反 向 联系 是 定 
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义 在 其 他 类 中 (通常 情况 如 此 )， 则 在 引用 时 就 要 在 联系 名 之 前 加 上 它 的 域名 一 一 即 所 在 类 的 
名 字 后 面 跟着 “::” 符 号 和 这 个 联系 名 。 

例 4.49 ”要 将 5tar 类 的 联系 starredIn 定 义 为 Movie 类 中 stars 的 反 向 联系 ， 如 图 4-45 修 改 
这 些 类 的 声明 (图 中 还 包含 一 个 以 后 将 讨论 的 Studio 类 )， 第 (6) 行 代码 是 电影 的 联系 stars 的 
声明 ， 并 且 注 明了 其 反 向 联系 为 Star::starredIn。 由 于 联系 StarredIn 在 另 一 个 类 中 定义 ， 
因此 需要 使 用 域名 。 

类 似 地 ， 联 系 starredIn 在 第 (11) 行 中 声明 。 它 的 逆 则 被 定义 为 Movie 类 的 联系 stars。 
为 反 向 联系 必须 成 对 出 现 ， 所 以 这 样 做 是 必须 的 。 口 

一 般 性 的 规则 是 ， 如 果 类 C 的 联系 R 将 类 C 的 x 对 象 与 类 D 的 y1, y;, …, ys 对 象 关联 起 来 ， 那 
么 R 的 反 向 联系 将 y; 与 x 关联 起 来 (可 能 同时 还 与 其 他 对 象 相 关联 )。 


4.9.5 联系 的 多 重 性 

像 E/R 模 型 中 的 二 元 联系 一 样 ，ODL 中 的 一 对 互 为 反 向 的 联系 也 可 以 被 分 为 多 对 多 、 多 对 
一 、 一 对 多 以 及 一 对 一 。 具 体 是 哪 一 种 ， 可 以 看 联系 的 类 型 声明 。 

1. 若 类 C 与 类 DD 之 间 是 多 对 多 联系 ， 那 么 类 C 中 相应 联系 的 类 型 应 当 为 Set<D>， 而 类 D 中 
相应 联系 的 类 型 则 为 Set< C >?， 

2. 如 果 类 C 到 类 D 的 联系 是 多 对 一 联系 ， 那 么 在 C 中 相应 联系 的 类 型 是 D， 而 在 D 中 的 相应 
联系 的 类 型 是 Set< C >; 

3. 如 果 类 D 到 类 C 的 联系 是 多 对 一 的 联系 ， 那 么 联系 的 类 型 正好 与 2 中 的 相反 ; 

4. 如 果 联 系 是 一 对 一 的 ， 那 么 类 C 中 相应 联系 的 类 型 为 D， 而 类 D 中 相应 联系 的 类 型 为 C。 

注意 , 像 在 E/R 模 型 中 一 样 , 这 里 允许 多 对 一 或 一 对 一 联系 包括 以 下 情况 : 对 某 些 对 象 而 言 ， 
联系 中 的 “一 ”事实 上 是 “ 零 ”"。 例 如 ， 一 个 C 到 D 的 多 对 一 联系 中 ， 茶 些 类 C 对 象 中 的 联系 值 
可 以 为 空 (null) 。 当 然 ， 因 为 了 可 以 与 任意 的 C 对 象 的 集合 相关 联 ， 所 以 这 个 集合 也 可 以 为 空 。 

例 4.50 ”图 4-45 定 义 了 三 个 类 :， Movie、Star 和 Studio。 前 两 个 已 经 在 例 4.46 和 例 4.47 中 
介绍 过 了 。 另 外 也 讨论 了 联系 对 stars 和 starredIn。 因 为 在 类 型 中 都 使 用 了 Set， 因 此 这 个 
联系 对 表示 Star 和 Movie 之 间 是 一 个 多 对 多 联系 。 

Studio (电影 公司 ) 对 象 有 属性 name 和 address， 见 第 (13) 和 第 (14) 行 。 在 Star 类 的 影星 
地 址 定义 中 ， 其 地 址 类 型 与 这 里 的 电影 公司 的 地 址 类 型 相同 。 
第 (7) 行 定义 了 一 个 从 Movie 类 到 Studio 类 的 联系 ownedBy， 这 个 联系 的 逆 是 第 (15) 行 的 owns 。 
由 于 ownedBy 的 类 型 是 5tudio， 而 owns 的 类 型 是 Set<movie>， 因 此 这 对 反 向 联系 是 从 Movie 到 
Studio 的 多 对 一 联系 。 口 


4.9.6 ODL 中 的 类 型 

ODL 为 数据 库 设 计 者 提供 了 一 个 类 似 于 C 或 其 他 传统 编程 语言 的 类 型 系统 。 一 个 类 型 系统 
由 本 身 提 供 的 一 些 基 本 类 型 以 及 一 些 递 归 规 则 (由 这 些 规则 可 以 由 简单 类 型 构造 出 复杂 类 型 ) 
组 成 。ODL 类 型 系统 的 基本 类 型 有 : 

1. 原子 类 型 (Primitive type) : 整 型 、 浮 点 型 、 字 符 型 、 字 符 串 型 、 布 尔 型 和 枚 举 型 
(enumerations)。 枚 举 型 是 符号 名 列表 ， 如 同 图 4-45 中 第 (5) 行 的 G6enres。 

2. 类 名 (Class name)， 如 Movie、Star 等 。 其 类 型 实际 上 是 一 个 包含 类 的 所 有 属性 和 联 
系 的 结构 。 





日 实际 上 ， 如 在 4.9.6 节 讨论 的 那样 ， 这 里 的 Set 可 以 用 另 一 个 “集合 类 型 ”代替 ， 如 链表 或 包 等 。 可 是 ， 在 
联系 的 部 分 ， 都 是 假定 所 有 集合 类 型 都 是 Set。 
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class Movie { 
attribute string title; 
attribute integer year; 
attribute integer length; 
attribute enum Genres 
{drama, comedy, sciFi, teen} genre; 

relationship Set<Star> stars 

inverse Star::starredlIn; 
relationship Studio ownedBy 

inverse Studio: ;owns; 


并 


class Star 1{ 
attribute string name; 
attribute Struct Addr 
{string street, string city} address; 
relationship Set<Movie> starredIn 
inverse Movie: :stars; 


}3 


class Studio { 
attribute string name; 
attribute Star::Addr address; 
relationship Set<Movie> owns 
inverse Movie::ownedBy; 





}; 
图 4-45 ODL 的 类 及 它们 之 间 的 联系 


这 些 基 本 类 型 可 以 用 下 列 类 型 构建 器 (type constructors) 组 合成 结构 化 的 类 型 

1. 集合 (set)。 设 7 为 任意 类 型 ， 则 Set<T> 表 示 的 类 型 是 类 型 为 7 的 元 素 的 有 限 集合 ，Set 
类 型 构建 器 的 例子 见 图 4-45 的 第 (6)、(11) 以 及 (15) 行 。 

2. 包 (bag)。 设 7 为 任意 类 型 ， 则 Bag<T> 表 示 类 型 为 7 的 元 素 的 有 限 包 或 有 限 多 集 (multiset)。 

3. 链表 (list) 。 设 7 为 任意 类 型 ， 则 ListxT> 表 示 一 个 类 型 为 7 的 元 素 的 有 限 长 链表 ， 链 表 
中 元 素 个 数 可 以 为 0 个 或 多 个 。 

4. 数组 (array)。 设 7 为 任意 类 型 ，i 是 一 个 整数 ， 则 Array<T，i> 表 示 的 类 型 是 类 型 为 7 的 
i 个 元 素 的 数组 。 例 如 ，Array<char ，10> 表 示 一 个 长 度 为 10 的 字符 串 。 

5. 字典 (dictionary)。 设 T，5 为 任意 类 型 ， 则 Dictionary<T，5> 表 示 的 是 T7，5 元 素 对 的 
有 限 集合 。 每 对 元 素 由 一 个 键 类 型 (key type) 7 的 值 和 一 个 值 域 类 型 (range type) 5 的 值 构 
成 。 字 典 中 不 能 存在 两 对 键 类 型 值 一 样 的 元 素 对 。 

6. 结构 (structure)。 若 Ti, T2,…,T, 是 类 型 ，F, Fi…, 五 ,分 别 是 其 字段 和 名， 那么 

Struct N {T1 Fl ，T2 F2，,,.，Tn Fn} 
表示 一 个 具有 n 个 字段 的 名 为 N 的 结构 类 型 。 其 第 i 个 字段 名 为 f;， 类 型 为 T;。 例 如 图 4-45 的 第 (10) 
行 定义 了 一 个 名 为 Addr 的 结构 类 型 ， 它 的 两 个 字段 均 为 string 类 型 ， 名 字 分 别 是 street 和 city。 


集合 、 包 和 链表 
为 了 理解 集合 、 包 和 和 链表 之 间 的 区 别 ， 记 住 集合 是 无 序 的 ， 每 个 元 素 至 多 出 现 一 次 。 


包 也 是 无 序 的 ， 但 它 允 许 元 素 出 现 多 次 。 而 链表 是 有 序 的 ， 它 也 允许 一 个 元 素 出 现 多 次 。 
所 以 {1,2,1} 和 {2,1,1} 是 同样 的 包 , 但 (1,2,1) 和 (2,1,1) 是 不 同 的 链表 。 
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前 五 种 类 型 一 一 集合 、 包 、 链 表 、 数 组 和 字典 统称 为 集合 类 型 (collection type)。 至 于 哪 
些 类 型 可 以 与 属性 关联 ， 哪 些 与 联系 关联 ， 则 有 不 同 的 规则 : 

“联系 的 类 型 或 者 是 一 个 类 类 型 ， 或 者 是 应 用 于 类 类 型 的 集合 类 型 构建 器 的 单独 使 用 。 

*。 属性 的 类 型 先 由 原子 类 型 或 其 他 类 型 构造 ， 然 后 可 以 多 次 使 用 结构 体 和 集合 类 型 构建 

器 来 构建 。 

例 4.51 可 能 取 的 一 些 属性 类 型 是 : 


1. integer. 
2. Struct N {string fieldi, integer field2}. 
3. List<real>. 


4. Array<Struct N {string fieldi, integer field2}, 10>. 

例子 中 ，(1) 是 原子 类 型 ，(2) 是 原子 类 型 结构 ，(3) 是 原子 类 型 的 集合 类 型 ，(4) 是 一 个 
由 原子 类 型 构成 的 结构 的 集合 类 型 。 

现在 假设 Movie 和 Star 是 可 用 的 基本 类 型 的 类 名 ， 然 后 可 以 创建 诸如 Movie 或 Bag<Star> 
这 样 的 联系 类 型 。 可 是 ， 如 下 是 一 些 非 法 的 联系 类 型 : 

1. Struct N { Movie fieldl，Star field2}。 联 系 类 型 不 能 含有 结构 类 型 ， 

2. Set<Integer>。 联 系 类 型 不 能 含有 原子 类 型 ， 

3. Set<Array<Star，10>>。 联 系 类 型 中 不 能 含有 多 个 集合 类 型 。 | 口 


4.9.7 ODL 中 的 子 类 

可 以 声明 一 个 类 C 是 另 一 个 类 D 的 子 类 ， 只 需 在 类 C 的 声明 之 后 加 上 关键 字 extends ， 再 加 
上 类 名 D 即 可 。 这 样 ， 类 C 继 承 了 D 的 所 有 属性 ， 并 且 它 可 以 有 它 自己 的 额外 属性 。 

例 4.52 ”回顾 例 4.10 中 将 卡通 片 类 定义 为 电影 类 的 子 类 ， 它 具有 一 个 附加 的 从 卡通 片 到 其 
配音 影星 集 的 联系 特性 。 用 QPL 声明 可 以 为 Mov1e 创 建 一 个 子 类 fartoan: 


class Cartoon extends Movie { 
relationship Set<Star> voices; 


同样 ， 在 本 例 中 ， 再 定义 一 个 凶杀 片 (Murder Mystery) 类 ， 该 类 有 属性 weapon: 
class MurderMystery extends Movie { 
attribute string weapon; 
这 是 一 个 合适 的 子 类 定义 。 口 
有 时 候 ， 在 像 Roger Rabit 电 影 这 样 的 情形 中 ， 需 要 同时 是 两 个 或 者 更 多 其 他 类 的 子 类 。 
在 ODL 中 ， 可 以 在 关键 字 extends 后 面 跟 着 几 个 类 ， 用 冒号 来 区 分 。。 这 样 ， 可 以 像 如 下 那样 
声明 第 四 个 类 : 
class CartoonMurderMystery 
extends MurderMystery : Cartoon; 


注意 当 有 多 个 继承 的 时 候 ， 存 在 一 个 类 同时 继承 具有 相同 名 字 的 两 个 不 同属 性 的 潜在 可 
能 性 。 解 决 这 种 冲突 的 方法 是 依赖 实现 技术 。 


日 也 可 以 使 用 类 类 型 ， 这 会 使 属性 如 同 “ 一 路 ”联系 。 这 里 将 不 考虑 这 种 属性 。 
日 在 技术 实现 上 , 第 二 个 以 及 后 续 的 名 字 必 须 代表 “接口 "， 而 不 是 类 。 大 体 上 说 ，ODL 中 的 接口 就 是 一 个 
没有 关联 对 象 集 的 类 定义 。 
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4.9.8 在 ODL 中 声明 键 

声明 键 对 于 一 个 类 来 说 是 可 选 的 。 原 因 是 在 面向 对 象 的 ODL 中 ， 像 在 4.8.4 节 中 有 关 UML 
的 讨论 一 样 ， 假 定 所 有 对 象 具有 一 个 对 象 标识 。 

ODL 中 ， 可 以 通过 使 用 关键 字 key 或 Kkeys (都 一 样 )， 后 面 跟着 一 个 属性 或 一 组 属性 来 为 
类 声明 一 个 或 多 个 属性 为 键 。 如 果 键 中 包含 多 个 属性 ， 那 么 必须 将 属性 列表 用 圆 括号 括 起 来 。 
键 声明 出 现在 括号 里 面 ， 跟 在 第 一 行 的 类 自身 名 字 声 明 的 后 面 。 

例 4.53 为 类 Movie 声 明 一 个 由 两 个 属性 title 和 year 构 成 的 键 : 

class Movie (key (title, year)) { 

也 可 以 用 keys 代 替 key， 即 便 只 有 一 个 键 声明 。 

可 能 有 多 个 属性 集 构成 多 个 键 的 情形 。 这 样 的 话 ， 可 以 将 这 些 键 加 在 关键 字 key(s) 后 面 ， 
并 且 用 逗号 分 开 。 一 般 地 , 一 个 由 多 个 属性 构成 的 键 在 声明 中 必须 将 这 些 属 性 用 圆 括号 括 起 来 ， 
这 样 就 可 以 区 分 声明 的 是 由 多 个 属性 集 构成 的 一 个 键 ， 还 是 由 单个 属性 构成 的 多 个 键 。 

ODL 标 准 还 允许 用 属性 以 外 的 特性 来 构成 键 。 将 一 个 方法 或 者 联系 声明 为 键 (或 者 键 的 
一 部 分 ) 基本 上 不 会 造成 什么 问题 ， 因 为 键 是 DBMS 可 以 使 用 (也 可 不 用 ) 的 一 种 辅助 性 的 
声明 。 例 如 ， 将 一 个 方法 声明 为 键 ， 这 就 意味 着 对 于 类 中 不 同 的 对 象 ， 该 方法 的 返回 值 不 会 
相同 。 

如 果 人 允许 在 键 声明 中 出 现 多 对 一 联系 ， 那 么 就 和 E/R 模 型 中 的 弱 实 体 集 合 有 相似 的 效果 。 
假设 对 象 0; 和 对 象 0! 处 于 一 个 多 对 一 的 联系 中 ， 其 中 0; 位 于 “多 ”的 那 一 边 ，01 位 于 “一 ” 
那 一 边 ， 那 么 对 象 01 与 对 象 0; 中 其 他 包含 在 键 中 的 特性 一 起 ， 对 不 同 对 象 0;: 具 有 了 唯一 性 。 但 
是 ， 应 当 记 住 ， 类 不 必要 有 键 ， 这 样 也 就 不 必 去 用 特别 的 方法 来 处 理 那 些 缺乏 构成 键 的 属性 
的 类 ， 就 好 像 在 处 理 弱 实体 集合 时 所 做 的 一 样 。 

例 4.54 先 复习 一 下 图 4-20 中 现实 体 集 Crews 。 | “ee Crew Chey (oanbor ,wnit099) 
的 例子 。 虽 然 两 个 不 同 的 电影 公司 可 以 有 相同 的 attribute string crewChiisz 
所 担子 (rew) 类 编号 ， 仍 人 人 说 折 扫 星子 是 | rondo See wooo 
由 它们 的 编号 以 及 它们 所 在 的 电影 公司 来 标识 。 及 ， 
可 以 如 图 4-46 所 示 那 样 声明 Crew 类 。 注 意 ， 这 里 
需要 修改 类 Studio 的 声明 ， 让 它 包 含 联 系 
crews0f， 该 联系 是 Crew 类 中 的 part0f 联 系 的 反 向 联系 。 这 里 没有 给 出 其 修改 内 容 。 

这 里 的 键 声 明 意 味 着 由 unit0f 关 联 的 同一 个 电影 公司 不 存在 两 个 拍摄 班子 有 相同 的 
number 属 性 值 。 请 注意 ， 这 个 声明 与 图 4-20 中 的 E/R 图 很 相似 ， 在 那个 图 中 ， 拍 摄 班子 实体 由 
拍摄 班子 编号 与 关联 电影 公司 的 名 字 ( 即 电影 公司 的 键 ) 唯一 地 决定 。 口 


4.9.9 习题 

习题 4.9.1 习题 4.1.1 是 一 个 银行 数据 库 系 统 的 非 正 式 描述 ， 现 在 将 它 用 ODL 描 述 ， 包 括 说 明 合 适 的 键 。 

习题 4.9.2 ”用 习题 4.1.2 中 列举 的 方式 修改 习题 4.9.1 中 的 设计 ， 只 要 说 明 你 做 的 修改 ， 而 不 必 写 出 完整 
的 新 模式 。 

习题 4.9.3 ”用 ODL 实 现 习题 4.1.3 中 的 球 队 一 队员 一 球迷 数据 库 系 统 ， 包 括 合适 的 键 说 明 。 为 何 原先 习 
题 中 很 复杂 的 球 队 颜色 集 问题 在 ODL 中 不 出 现 ? 

! 习 题 4.9.4 ”假设 要 保存 一 张 家 谱 。 我 们 将 使 用 一 个 Person 类 ， 对 应 每 个 Person 对 象 ， 要 记录 其 名 字 
(这 是 Person 类 的 一 个 属性 ) ， 以 及 以 下 联系 : mother，father 和 children。 给 出 Person 类 的 一 个 
0DL 设 计 。 要 指明 联系 的 道 ， 与 nother，father 和 chil1dren 一 样 ， 它 们 也 是 从 Person 类 到 Person 类 

















图 4-46 crews 和 的 ODL 声 明 
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的 联系 。Mother 联 系 的 反 向 联系 是 否 就 是 children 联 系 ? 请 给 出 你 的 回答 以 及 理由 ， 将 每 个 联系 连 
同 其 反 向 联系 一 起 描述 成 一 个 联系 对 集合 。 

! 习 题 4.9.5 ”为 习题 4.9.4 中 的 设计 增加 一 个 属性 education。 这 个 属性 值 用 来 保存 各 个 Person 对 象 所 获 
得 的 学 位 的 集合 ， 学 位 信息 包括 : 学 位 名 (如 B.S)、 所 属 学 校 以 及 获得 日 期 。 这 个 结构 的 集合 可 以 
是 Set，Bag，List 或 Array。 解 释 这 四 种 选择 可 能 导致 的 设计 结果 ， 从 保存 信息 的 角度 考虑 它们 各 
自 有 哪些 取舍 ? 舍 去 的 信息 在 实际 中 是 否 很 重要 ? 

习题 4.9.6 习题 4.4.4 中 ， 有 两 个 例子 ， 在 那 种 情况 下 ， 弱 实体 集 是 必需 的 。 使 用 ODL 实 现 这 些 数据 库 ， 
包括 合适 的 键 声明 。 

习题 4.9.7 用 ODL 设 计 习 题 4.1.9 中 的 注册 数据 库 。 

!! 习 题 4.9.8 ”在 什么 情况 下 一 个 联系 是 自 反 的 ? 提示: 将 联系 看 成 是 对 象 对 的 集合 (就 像 4.9.4 节 讨论 的 
那样 )。 


4.10 ”从 ODL 设 计 到 关系 设计 


ODL 其 实 是 面向 对 象 DBMS 作 为 一 个 语言 标准 的 数据 定义 部 分 而 提出 的 ， 与 SQL 中 
CREATE TABLE 语 句 类 似 。 的 确 有 些 实现 这 样 一 个 系统 的 尝试 。 尽 管 如 此 ，ODL 也 可 以 作为 一 
种 基于 文本 的 、 高 级 的 设计 标记 ， 从 中 衍生 出 一 个 关系 数据 库 模 式 。 这 样 ， 在 本 节 中 将 考虑 
如 何 将 ODL 设 计 转 化 到 关系 型 的 设计 。 

这 个 过 程 在 很 多 方面 与 在 4.5 节 介绍 的 将 E/R 图 转化 为 关系 数据 库 模 式 的 方法 以 及 与 4.8 节 
中 介绍 的 将 UML 转 化 为 关系 数据 库 模式 的 方法 相似 。 类 转化 为 关系 ， 联 系 转化 为 关系 ， 该 关 
系 连接 联系 中 类 的 键 属性 。 对 于 ODL 而 言 ， 还 有 一 些 新 的 问题 ， 包 括 : 

1. 实体 集 一 定 要 有 键 , 但 在 ODL 类 中 没有 这 种 要 求 。 

2.E/R、UML 和 关系 模型 中 的 属性 都 要 求 必须 是 原子 类 型 ,但 ODL 属 性 没有 这 样 的 限制 。 


4.10.1 从 ODL 类 到 关系 

作为 开始 ， 先 假设 每 个 类 对 应 一 个 关系 ， 而 类 的 每 个 特性 都 对 应 关系 的 一 个 属性 。 后 面 
将 看 到 ， 这 种 假设 在 很 多 方面 需要 改进 ,但 暂时 先 只 考虑 这 种 最 简单 的 情况 ， 在 这 种 情况 下 
确实 可 以 做 到 将 类 转化 为 关系 和 特性 转化 为 属性 。 假 设 的 约束 如 下 : 

1. 类 中 的 所 有 特性 都 是 属性 (而 不 是 联系 或 者 方法 ) ， 

2. 属性 的 类 型 都 是 原子 类 型 (而 不 是 结构 或 集合 )。 

在 这 种 情况 下 ，ODL 类 看 起 来 更 像 是 一 个 实体 集 或 者 一 个 UML 类 。 尽 管 ODL 类 可 能 没有 
键 ， 但 ODL 假 定 有 对 象 标识 。 于 是 ， 可 以 创建 一 个 人 工 的 属性 来 表达 对 象 标 识 并 且 让 它 作为 
相应 关系 的 键 。 这 个 问题 曾 在 4.8.4 节 中 对 UML 介 绍 过 。 


class MovieExec { 





例 4.55 ”图 4-47 是 电影 制 片 人 的 ODL 描 述 。 这 里 没 attribute string name; 

有 列 出 键 ， 也 没有 假设 name 能 唯一 决定 电影 制 片 人 attribute atring address; 

(不 像 影星 ， 他 们 可 以 确保 他 们 名 字 的 唯一 性 ) 。 I 
用 和 类 相同 的 名 字 构 建 一 个 关系 。 这 个 关系 具有 四 

个 属性 ， 一 是 为 了 类 的 每 个 属性 ， 一 是 为 了 对 象 标识 。 0 
MovieExecs(cert#, name, address, netWorth) 

这 里 用 cert# 作 为 键 属性 ， 用 来 标识 对 象 。 口 


4.10.2 类 中 的 复杂 属性 
即便 是 只 有 属性 的 类 ， 也 很 难 将 类 转化 为 关系 。 原 因 是 ，ODL 的 类 属性 可 以 是 复杂 类 型 ， 
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诸如 结构 、 集 合 、 包 或 列表 ， 等 等 。 而 另 一 方面 ， 关 系 模型 的 一 个 基本 要 求 是 : 关系 属性 必 
须 是 数值 类 型 或 字符 串 型 等 原子 类 型 。 
所 以 必须 设法 在 关系 中 找 出 表达 复杂 类 


class Star (key name) 1 
attribute string name; 





型 属性 的 方法 。 attribute Struct Addr 
类 型 是 原子 类 型 的 记录 结构 是 最 容 {string street, string city} address; 
2 3 
易 处 理 的 。 只 要 扩展 结构 的 定义 ， 为 结 
构 的 每 个 字段 定义 一 个 关系 的 属性 即 可 。 人 


例 4.56 ”图 4-48 是 类 Star 的 声明 ， 该 类 的 特性 都 是 属性 。 属 性 name 是 原子 类 型 ， 但 是 
address 属 性 是 有 两 个 字段 (street 和 city) 的 结构 类 型 。 这 个 类 的 关系 模式 如 下 : 


Star(name, street, city) 


这 里 的 键 是 name ， 属 性 street 和 city 表 示 了 结构 address。 口 


4.10.3 值 集合 类 型 属性 的 表示 

记录 结构 还 不 是 ODL 类 声明 中 类 型 最 复杂 的 属性 。 在 4.9.6 节 中 提 到 ， 类 型 还 可 以 使 用 类 
型 构建 器 Set、Bag、List、Array 和 
Dictionary 来 构造 。 在 将 其 转化 为 关 。 | ”attribute sing pane; 
系 模型 时 ， 它 们 各 自 有 各 自 的 问题 。 这 ee Addr {string street, string city} 
里 只 对 最 常用 的 Set 进 行 详细 讨论 。 > address; | 

一 种 处 理 办 法 是 ， 对 于 属性 4 的 值 attribute Date birthdate; 
集合 ， 为 集合 中 的 每 个 值 都 构造 一 个 元 
组 ， 该 元 组 中 包括 属性 4 和 类 中 除了 4 
之 外 的 所 有 其 他 属性 的 相应 值 。 这 种 方 
法 虽然 可 行 ， 但 产生 的 是 非 规范 的 关系 ， 看 下 面 的 例子 。 

例 4.57 图 4-49 展 示 了 类 Star 的 一 个 新 的 定义 ， 在 这 个 定义 中 允许 star 有 个 地 址 集合 ， 并 
且 添 加 一 个 非 键 的 原子 属性 birthdate。Birthdate 属 性 可 以 是 Star 关 系 的 一 个 属性 ， 那 么 这 
个 模式 就 变 成 : 

Star(name, street, city, birthdate) 

不 幸 的 是 ， 这 个 关系 具有 在 3.3.1 节 中 看 到 的 异常 问题 。 如 果 Carrie Fisher 有 两 个 地 址 ， 比 
如 一 个 是 家 里 的 ,一 个 是 海滩 房子 的 ， 那 么 她 要 在 关系 Star 中 用 两 个 元 组 表示 。 如 果 
Harrison Ford 有 一 个 空 的 地 址 集合 ， 那 么 他 就 根本 不 会 在 Star 中 出 现 。 一 个 Star 典 型 的 元 组 
集合 在 图 4-50 中 给 出 。 





图 4-49 有 一 组 地 址 和 出 生日 期 的 影星 


birthdate 
Carrie Fisher | 123 Maple St. | Hollywood | 9/9/99 


Carrie Fisher | 5 Locust Ln, Malibu 9/9/99 
Mark Hamill 456 0ak Rd. Brentwood | 8/8/88 





图 4-50 增加 属性 birthdate 之 后 的 元 组 


尽管 name 属 性 是 类 Star 的 一 个 键 ， 但 是 对 于 每 个 影星 ， 需 要 使 用 多 个 元 组 来 表示 其 所 有 
的 住址 ， 这 就 使 得 在 关系 Stars 中 ，name 不 是 一 个 键 。 事 实 上 ， 该 关系 的 键 是 {name， 
street ,city}。 因 此 函数 依赖 


name 一 birthdate 
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违反 了 BCNF 条 件 ， 并 且 多 值 依赖 

name 一 street city 
也 违反 了 4NF。 口 

至 于 如 何 处 理 在 类 声明 中 出 现 的 集合 类 型 属性 和 其 他 属性 ， 有 几 种 选择 。 一 种 方式 是 把 
每 一 个 值 集合 类 型 属性 分 离 出 类 ， 将 这 些 集合 的 值 与 类 的 对 象 之 间 的 关系 看 作 是 一 个 “多 对 
多 ”的 联系 。 

另外 一 种 方法 是 可 以 把 所 有 的 属性 (不管 是 不 是 值 集合 类 型 ) 都 放 在 关系 的 模式 中 ; 然 
后 ， 使 用 3.3 节 和 3.6 节 提 到 的 规范 化 方法 来 消除 产生 的 BCNF 和 4NF 违 例 。 注 意 ， 任 一 值 集合 
类 型 属性 与 一 个 单 值 属性 的 联合 将 导致 韦 反 BCNF 条 件 ， 见 例 4.57。 即 使 没有 单 值 属 性 ， 在 同 
一 个 类 声明 中 的 两 个 值 集合 类 型 属性 仍 将 导致 违反 4NF 条 件 。 


4.10.4 其 他 类 型 构建 器 的 表示 

除了 记录 结构 和 和 集合 ，ODL 类 定义 还 可 以 使 用 Bag、List、Array 或 者 Dictionary 来 构建 
类 型 。 为 了 要 用 关系 表示 一 个 相同 元 素 可 以 出 现 n 次 的 包 (多 集 )， 不 能 简单 地 将 这 种 情况 处 理 
成 4 个 完全 相同 的 元 组 ” 。 相 反 ， 可 以 在 设计 模式 中 增加 一 个 count 属 性 用 于 记录 包 中 每 个 元 素 
出 现 的 次 数 。 例 如 ， 假 设 图 4-49 中 的 address 是 一 个 包 类 型 (而 不 是 集合 类 型 ) 的 属性 ， 于 是 
可 以 说 123 Maple St. 和 Hollywood 是 Carrie Fisher 的 两 次 地 址 ，5 Locust Ln. 与 Malibu 是 Carrie 
Fisher 的 三 次 地 址 。 不 管 这 到 底 意 味 着 什么 ， 可 以 用 以 下 这 样 的 元 组 集合 表示 : 





name street city count 
Carrie Fisher | 123 Maple St. | Hollywood | 2 
Carrie Fisher | 5 Locust Ln. Malibu 3 


也 可 以 使 用 一 个 新 属性 position 表 示 address 列 表 ， 以 指示 对 应 的 地 址 在 列表 中 的 位 置 。 
例如 ， 可 以 将 Carie fisher 的 地 址 作为 列表 ，Hollywood 是 第 一 个 : 


name street city position 
Carrie Fisher | 123 Maple St. | Hollywood | 1 
Carrie Fisher | 5 Locust Ln. Malibu 2 


如 果 地 址 是 定 长 数组 ， 则 可 以 用 数组 中 的 位 置 表示 。 例 如 address 是 两 个 城市 街道 结构 数 
组 类 型 ， 可 以 把 Star 对 象 用 如 下 形式 表示 : 


name street1 cityl street2 city2 
Carrie Fisher | 123 Maple St. | Hollywood | 5 Locust Ln. | Malibu 


最 后 ， 字 典 (dictionary) 可 以 表示 成 一 个 由 键 值 和 域 值 组 成 的 二 元 组 的 集合 。 例 如 ， 对 
于 每 个 影星 ， 除 了 地 址 外 ， 若 还 要 保存 其 各 个 房产 的 抵押 契 据 持 有 者 的 字典 ， 那 么 ， 该 字典 


name street city mortgage-holder 
Carrie Fisher | 123 Maple St. | Hollywood | Bank of Burbank 
Carrie Fisher | 5 Locust Ln. Malibu Torrance Trust 


类 型 就 以 address 作 为 其 键 值 ， 银 行 名 为 其 域 值 。 下 面 的 图 表 是 一 个 例子 : 
当然 ，ODL 中 属性 的 类 型 可 能 涉及 多 种 类 型 构建 器 。 如 果 一 个 类 型 是 在 结构 类 型 基础 上 


日 ”精确 地 讲 ， 在 2.2 节 介绍 的 抽象 关系 模型 中 无 法 引入 完全 相同 的 元 组 。 不 过 在 基于 SQL 的 关系 DBMS 中 可 以 
复制 元 组 ， 也 就 是 说 ，SQL 中 关系 是 包 而 不 是 集合 。 参 见 5.1 节 和 6.4 节 。 如 果 查 询 是 要 求 得 到 元 组 的 个 数 ， 
那么 不 管 你 的 DBMS 是 否 允 许 复制 元 组 ， 建 议 还 是 使 用 这 里 描述 的 设计 模式 。 
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使 用 集合 类 型 构建 器 (Dictionary 除 外 ) 定义 而 成 的 例如， 一 个 结构 集 )， 那 么 使 用 4.10.3 苘 
或 者 4.10.4 节 介绍 的 技巧 ， 可 以 首先 将 结构 看 作 原子 值 ， 然 后 再 将 结构 类 型 展开 成 多 个 属性 ， 
每 个 属性 对 应 结构 的 一 个 字段 。 上 面 例子 中 ， 已 经 使 用 了 这 个 技巧 ( 例 中 address 属 性 是 一 个 
结构 )。Dictionary 的 情况 类 似 ， 留 作 习题 。 

很 多 情况 下 应 当 把 属性 类 型 的 复杂 度 控制 在 一 定 程度 〈 在 一 个 结构 声明 和 一 个 集合 类 
型 构建 器 所 能 构造 的 范围 之 内 ) 。4.1.1 节 中 提 到 过 ， 尽 管 E/R 模 型 要 求 每 个 属性 都 是 原子 类 
型 ， 然 而 在 某 些 E/R 模 型 的 实际 实现 中 ， 类 型 定义 的 复杂 度 有 所 扩展 ， 不 过 还 是 被 限制 在 这 
个 范围 以 内 。 有 一 个 建议 ， 就 是 在 打算 使 用 ODL 设 计 并 最 终 转 换 为 关系 数据 库 模式 时 ， 尽 
可 能 地 限制 自己 不 要 使 用 太 多 的 特性 。 在 习题 中 将 考虑 一 些 更 加 复杂 的 属性 类 型 处 理 方式 
的 选择 。 


4.10.5 ODL 中 联系 的 表示 

一 般 地 ，ODL 中 的 类 会 包含 与 其 他 类 之 间 的 联系 。 这 就 像 E/R 模 型 ， 可 以 为 每 一 个 联系 创 
建 一 个 新 关系 ， 该 关系 连接 两 个 相关 类 的 键 。 不 过 在 ODL 中 ， 联 系 互 为 相反 地 成 对 出 现 ， 对 
于 每 对 联系 ， 只 需 建立 一 个 关系 。 

当 联 系 的 类 型 是 多 对 一 时 ， 可 以 选择 将 该 联系 与 联系 中 “多 ”的 那 一 方 的 类 建立 一 个 关 
系 。 这 样 做 的 效果 是 ， 将 拥有 共同 键 的 两 个 关系 组 合 (这 在 4.5.3 节 讨论 过 ) 。 这 样 就 不 会 违犯 
BCNF 条 件 ， 因 而 也 就 是 一 个 合法 的 、 并 且 常 用 的 选择 。 


4.10.6 习题 
习题 4.10.1 将 以 下 习题 中 的 ODL 设 计 转 化 为 关系 数据 库 模 式 .。 
a) 习题 4.9.1; 
b) 习题 4.9.2 (包括 该 习题 描述 的 四 个 修改 方式 ) ; 
c) 习题 4.9.3， 
d) 习题 4.9.4; 
e) 习题 4.9.5。 
! 习 题 4.10.2 ”考虑 一 个 Dictionary 类 型 的 属性 ， 其 中 Dictionary 类 型 的 键 类 型 以 及 值 类 型 都 是 原子 类 
型 。 怎 样 将 拥有 这 样 一 个 属性 的 类 转化 为 一 个 关系 ? 
习题 4.10.3 ”前 面 提 到 过 ， 把 一 个 比 结构 集合 类 型 更 复杂 的 类 型 转化 为 关系 需要 一 些 技 巧 ， 特 别 是 需要 
定义 一 些 中 间 概 念 和 关系 。 下 面 的 一 组 习题 会 逐步 地 增加 类 型 复杂 性 ， 如 何 将 它们 表示 成 为 关系 。 
a) 一 张 牌 (card) 可 以 用 一 个 结构 来 表示 ， 结 构 包 含 一 个 rank ( 牌 面 大 小 ) 字段 (2, 3, …, 10, Jack， 
Queen, King 和 Ace) 和 一 个 suit (花色 ) 字段 (草花 、 方 块 、 红 心 、 黑 桃 )。 给 出 结构 类 型 Card 
的 合理 定义 ， 并 要 求 该 类 型 的 定义 与 其 他 任何 类 的 声明 相 独 立 ， 但 可 以 被 它们 使 用 。 
b) 一 手 牌 (hand) 是 一 个 牌 的 集合 ， 牌 的 数量 不 定 。 给 出 一 个 类 Hand 的 声明 ， 类 的 对 象 是 一 手 牌 ， 
也 就 是 说 类 声明 中 包含 一 个 属性 theHand， 其 类 型 为 一 手 牌 。 
!c) 将 (b) 中 的 Hand 类 声明 转化 为 一 个 关系 模式 。 
d) 一 手 扑 克 牌 (poker hand) 是 指 五 张 牌 的 集合 ， 对 于 这 个 概念 ， 重 复 (b) 和 (c)。 
le) 发 牌 (deal) 是 一 个 对 集合 ， 其 中 每 个 “对 ”由 玩家 的 名 字 和 玩家 的 一 手 牌 构成 。 声 明 类 Deal， 
它 的 对 象 是 发 牌 ， 也 就 是 说 ， 该 声明 中 包括 一 个 类 型 为 发 牌 的 属性 theDeal。 
f) 重复 (e)， 将 其 中 的 “一 手 牌 ”限制 为 “一 手 扑 克 牌 ”。 
g) 重复 (e)， 对 于 其 中 的 “发 牌 ”使 用 字典 ， 可 以 假定 一 次 发 牌 中 的 各 个 玩家 的 名 字 互 不 相同 。 
llh) 将 (e) 中 的 类 声明 转化 为 一 个 关系 数据 库 模 式 。 
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1 假设 定义 发 牌 为 牌 的 集合 的 集合 (没有 玩家 与 任 一 手 牌 相关 )。 建议 使 用 如 下 关系 模式 来 描述 发 牌 : 
Deals(dealID,card)。 其 中 ,card 是 具有 给 定 ID 的 发 牌 (Deal) 中 某 一 手 牌 (Hand) 中 的 一 张 牌 ， 
这 个 表示 有 没有 问题 ? 如果 有 ， 问 题 在 哪里 ”怎样 改正 ? 
习题 4.10.4 假设 类 C 的 定义 如 下 : 
class C (key a) { 
attribute string a; 
attribute T b; 
Eh 
这 里 7 是 某 种 类 型 。 如 果 7T 的 类 型 如 下 ， 请 给 出 类 C 的 关系 模式 ， 并 且 指 出 关系 的 键 : 


a) Set<Struct S {string f, string g}> 
Ib) Bag<Struct S {string f, string g}> 
Ic) List<Struct S {string f, string }> 


!d) Dictionary<Struct K {string f, string g}, Struct R {string i, 
string j}> 


4.11 小 结 


。 实 体 一 联系 模型 (the Entity-Relationship Model); 在 E/R 模 型 中 描述 了 实体 集 、 实 体 集 
之 间 的 联系 以 及 实体 集 和 联系 的 属性 。 实 体 集 的 成 员 叫 做 实体 。 

。 实 体 一 联系 图 (Entity-Relationship Diagram) : 分 别 用 矩形、 菱形 和 椭圆 来 画 实体 集 、 联 
系 和 属性 。 

。 联 系 的 多 样 性 (Multiplicity of Relationship) : 二 元 联系 可 以 是 一 对 一 、 多 对 一 或 多 对 多 。 
在 一 对 一 联系 中 ， 两 个 实体 集中 的 任 一 个 实体 至 多 只 能 与 男 一 个 实体 集中 的 一 个 实体 关 
联 。 在 多 对 一 联系 中 ,“ 多 ” 边 的 每 个 实体 至 多 只 能 与 另 一 边 的 一 个 实体 关联 。 多 对 多 
联系 对 个 数 无 约束 。 

。 好 的 设计 (Good Design): 高 效 地 设计 数据 库 需 要 忠实 地 表达 现实 世界 ， 选 择 合适 的 元 
素 (如 联系 、 属 性 ) ， 避 免 元 余 一 元 余 是 指 一 件 事 表 示 了 两 次 ， 或 者 是 用 一 种 间接 的 
或 者 是 用 过 度 复 杂 的 方式 表示 一 件 事 。 

。 子 类 (Subclass): E/R 模 型 用 一 个 特殊 的 联系 isa 表 示 一 个 实体 集 是 另 一 个 实体 集 的 特例 。 
实体 集 可 能 连接 在 一 个 层次 体系 中 ， 其 中 每 个 子 节点 都 是 其 父 节点 的 特例 。 只 要 子 树 包 
含 根 ， 那 么 实体 集 就 可 以 有 属于 此 层次 的 任意 子 树 的 组 成 部 分 。 

。 弱 实体 集 (Weak Entity Set); 需要 用 支持 实体 集 的 属性 来 确定 它 自己 的 实体 。 使 用 双边 
的 矩形 和 菱形 来 区 分 弱 实 体 集 。 

。 把 实体 集 转 化 为 关系 (Converting Entity Set to Relation) ， 实 体 集 关 系 的 属性 与 相应 实 
体 集 的 属性 对 应 。 而 弱 实 体 集 E 例 外 ， 它 的 属性 必须 包含 其 支持 实体 集 的 键 属性 。 

。 把 联系 转化 为 关系 (Converting Relationship to Relations): E/R 联 系 的 关系 的 属性 与 每 
个 连接 此 联系 的 实体 集 的 键 属 性 对 应 。 若 一 个 联系 是 某 个 弱 实 体 集 的 支持 联系 ， 则 不 需 
为 这 个 联系 生成 关系 。 

。 把 isa 层 次 转化 为 关系 (Converting isa Hierarchies to Relation ) : 一 种 方法 是 为 每 个 实 
体 集 创建 一 个 关系 ， 该 关系 具有 层次 的 根 的 键 属性 和 该 实体 集 本 身 的 属性 。 第 二 种 方 
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法 是 对 层次 中 实体 集 的 每 个 可 能 的 子 集 创 建 相应 的 关系 ， 为 每 个 实体 创建 一 个 元 组 。 
关系 中 的 元 组 对 应 于 该 实体 所 属 的 实体 集 。 第 三 种 方法 是 利用 空 值 仅 创建 一 个 关系 ， 
每 个 实体 对 应 于 关系 中 的 一 个 元 组 ， 若 该 实体 没有 某 个 属性 ， 则 在 关系 相应 的 分 量 处 
填 入 空 值 。 

。 统 一 建 模 语 言 (Unified Modeling Language): 在 UML 中 ， 描 述 类 和 类 之 间 的 关联 。 类 
好 比 E/R 实 体 集 ， 关 联 好 比 二 元 的 E/R 联 系 。 特 殊 的 多 对 一 联系 称 为 聚集 和 组 合 ， 并 且 这 
些 联系 暗含 了 它们 是 如 何 转 化 为 关系 的 。 

。UML 子 类 继承 (UML Subclass Hierarchy) ， UML 人 允许 类 拥有 子 类 ， 并 有 具有 从 超 类 继承 
的 方式 。 一 个 类 的 子 类 可 以 是 完整 的 或 部 分 的 ， 也 可 以 分 离 或 者 重 登 。 

。 将 UML 图 转化 为 关系 (Converting UML Diagrams to Relation ) ， 该 方法 同 那些 在 E/R 模 
型 中 使 用 过 的 类 似 。 类 变 成 关系 ， 关 联 变 成 连接 各 个 类 的 键 的 关系 。 聚 集 和 组 合 合并 ， 
从 “多 ”的 那 端 的 类 构建 成 关系 。 

。 对 象 定 义 语 言 (Object Definitive Language) : 该 语言 用 面向 对 象 方式 描述 数据 库 的 模式 
设计 。 用 户 可 以 定义 类 ， 它 有 三 种 特性 : 属性 、 方 法 和 联系 。 

。ODL 联 系 (ODL Relationship): ODL 中 的 联系 必须 是 二 元 的 。 它 在 其 连接 的 两 个 类 
(关联 的 两 端 ) 中 通过 名 字 来 声明 (同时 声明 其 反 向 联系 )。 联 系 可 以 是 多 对 多 、 多 对 一 
或 者 一 对 一 ， 取 决 于 联系 的 类 型 是 被 声明 为 单个 对 象 还 是 对 象 的 集合 。 

。ODL 的 类 型 系统 (The ODL Type System): ODL 人 允许 构建 类 型 ， 从 类 名 和 原子 类 型 开始 ， 
使 用 类 型 构建 器 为 : 结构 、 集 合 、 包 、 和 链表、 数组 和 字典 等 。 

*ODL 中 的 键 (Key in ODL): ODL 中 键 可 选 。 用 户 可 以 声明 一 个 或 者 多 个 键 。 但 是 由 于 
每 个 对 象 都 有 一 个 对 象 ID， 所 以 ODL 的 实现 系统 可 以 区 分 不 同 对 象 ， 就 算 对 象 的 所 有 属 
性 都 有 相同 的 值 时 也 如 此 。 

。 将 ODL 类 转化 为 关系 (Converting ODL Class to Relation ) :与 E/R 或 者 UML 转 化 方 
法 相同 ， 只 是 当 类 具有 复杂 类 型 属性 时 不 同 。 复 杂 类 型 属性 类 转换 的 关系 可 能 是 非 
规范 化 的 ， 需 要 做 分 解 。 它 也 可 能 需要 创建 一 个 新 的 属性 来 表示 对 象 的 对 象 标识 
作为 键 。 

。 将 ODL 联 系 转化 为 关系 (Converting ODL Relationship to Relation); 方法 与 E/R 联 系 一 
样 ， 除 了 必须 将 ODL 联 系 与 它们 的 逆 配 对 外 ， 并 且 为 这 个 对 创建 一 个 关系 。 
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第 5 章 ”代数 和 逻辑 查询 语言 


这 一 章 开 始 Sn ea de 痢 太 全 基 各 村 杂 币 于 从 计 这 开 各、 一 种 
是 代数 语言 ， 另 一 种 是 基于 逻辑 的 语言 。 代 数 编程 语言 ， 即 关系 代数 ， 已 经 在 第 2.4 节 作 了 初 
步 介绍 ,给 出 了 关系 数据 模型 中 的 操作 形式 。 可 是 ， 有 关 代数 的 政 多 其 他 内 容 还 没有 间 绍 。 
这 一 章 将 把 2.4 节 中 的 基于 集合 的 代数 扩展 到 基于 包 (bag) 的 代数 ， 这 样 更 符合 关系 数据 模 
型 的 实际 实现 。 另 外 还 要 给 出 更 多 的 操作 ， 例 如 ， Sr 
Na eee “Datalog” 的 基于 逻辑 的 语言 。 该 语言 允许 用 户 用 描述 期 
结果 形式 地 表达 查询 ， 而 不 是 像 关 系 代 数 那样 用 算法 计算 结 # 果 。 


5.1 包 上 的 关系 操作 





在 这 一 节 将 把 关系 看 作 是 包 ( 多 集 ，multiset) 而 不 是 集合 。 也 就 是 说 ， 
同一 个 元 组 可 以 在 关系 中 多 次 出 现 。 当 关系 是 包 时 ， 关 系 上 的 代数 操作 需 上 
要 作 些 修改 。 首 先 ， 看 看 关系 是 包 而 不 是 集合 的 例子 。 3 |4 

例 5.1 ”图 5-1 中 的 关系 是 元 组 的 包 。 其 中 ， 元 组 (1, 2) 出 现 了 三 次 ， 元 六 


组 (3, 4) 出 现 一 次 。 如 果 图 5-1 表 示 的 是 一 个 基于 集合 的 关系 ， 将 必须 消去 两 
个 (1, 2) 元 组 。 在 基于 包 的 关系 当中 人 允许 重复 元 组 出 现 ， 但 是 ， 与 基于 集合 图 5-1 包 
的 关系 一 样 ， 元 组 通常 没有 顺序 。 El 


5.1.1 为 什么 采用 包 

如 前 所 述 ， 商 业 DBMS 实 现 的 关系 都 是 包 而 不 是 集合 。 更 重要 的 原因 是 ， 如 果 采 用 基于 
包 的 关系 ， 一 些 关系 操作 的 实现 效率 会 更 好 。 例 如 ， 

1. 两 个 包 关系 的 并 操作 ， 就 可 以 简单 地 将 一 个 关系 的 所 有 元 组 复制 到 另 一 个 关系 ， 而 不 
必 去 消除 两 个 关系 当中 的 重复 元 组 。 

2. 当 在 集合 关系 上 作 投影 时 ， 需 要 将 每 一 个 投影 元 组 与 所 有 元 组 逐个 
比较 ， 以 确定 每 次 投影 只 出 现 一 次 。 可 是 ， 如 果 接 受 包 作为 结果 ， 就 可 以 
简单 地 投影 每 个 元 组 并 将 其 加 入 到 结果 之 中 ， 而 不 必 与 其 他 已 得 到 的 投影 
元 组 作 比较 。 8 

例 5.2 ”如 果 允 许 结果 是 包 ， 那 么 把 图 5-2 中 的 关系 投影 到 4，B 属 性 上 四 5 合 52 的 包 
就 得 到 图 5-1 中 所 示 的 包 。 其 重复 元 组 (1, 2) 不 必 去 掉 。 

如 果 使 用 通常 意义 上 的 投影 操作 ， 就 不 允许 重复 元 组 在 结果 中 出 现 ， 那 么 结果 是 
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注意 ， 尽 管 基于 包 的 结果 会 大 一 些 ， 可 计算 起 来 却 比 较 快 ， 因 为 不 用 把 元 组 (1, 2) 或 (3, 4) 跟 已 
经 得 到 的 那些 元 组 相 比 较 。 口 

另外 一 个 将 关系 看 作 包 的 原因 是 ， 哪 怕 是 暂时 性 的 ， 某 些 结果 也 只 有 在 包 的 情形 才能 看 
到 。 下 面 是 一 个 这 样 的 例子 。 

例 5.3 ”假定 对 像 图 5-2 那 样 的 数值 集 上 的 关系 做 “ 求 4 属性 的 平均 值 ”操作 ， 不 能 采用 基 
于 集合 的 关系 来 投影 4 属性 。 作 为 集合 ，4 属 性 的 平均 值 是 2， 因 为 4 属性 只 有 两 个 值 : 1 和 3。 
但 是 如 果 把 图 5-2 中 的 4 属性 看 成 是 包 {1, 3, 1, 1} 的 话 ， 就 得 到 了 图 5-2 中 四 个 元 组 4 属性 的 正确 
平均 值 一 一 1.5。 口 


5.1.2 包 的 并 、 交 、 差 

有 三 个 操作 对 于 包 概 念 来 说 需要 重新 定义 。 假 定 R 和 5 是 包 ， 其 中 元 组 在 R 中 出 现 了 n 次 ， 
在 5 中 出 现 了 m 次 。 注 意 ， 这 里 的 x 和 m 都 可 以 是 0。 于 是 : 

1. 在 RU 5 的 包 并 操作 中 ， 元 组 出现 n+m 次 。 

2. 在 RN 5 的 包 交 操作 中 ， 元 组 出现 min(m, n) 次 。 

3. 在 R 一 5 的 包 差 操作 中 ， 元 组 1 出现 max(0, "一 四 次 。 也 就 是 说 ， 如 果 元 组 :在 R 中 出 现 的 次 
数 比 在 S 中 出 现 的 次 数 更 多 ， 则 R 一 5 中 1 出现 的 次 数 就 是 将 t 在 R 中 出 现 的 次 数 减 去 在 5 中 出 现 的 
次 数 。 反 之 ， 如 果 ! 在 5 中 出 现 的 次 数 跟 在 R 中 出 现 的 次 数 一 样 多 ， 那 么 在 R-S 中 就 不 出 现 了 。 
直观 上 ,i 在 $5 中 的 每 次 出 现 都 “抵消 ”了 它 在 R 中 的 一 次 出 现 。 

例 5.4 R 是 一 个 跟 图 5-1 一 样 的 基于 包 的 关系 ， 元 组 (1, 2) 出 现 了 三 次 ， 元 组 (3, 4) 出 现 了 一 
次 。 而 5 是 如 下 的 基于 包 的 关系 : 


AlBP 


人 


那么 RU 5 就 是 这 样 的 一 个 关系 :其 中 元 组 (1, 2) 出 现 了 四 次 (3 个 是 由 于 其 在 R 中 的 出 现 ，1 
个 是 由 于 在 $ 中 的 出 现 ) ; 元 组 (3,4) 出 现 了 三 次 ，(5, 6) 出 现 了 一 次 。 
R 和 5 的 交 Rns 的 结果 是 
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这 里 (1, 2) 和 (3, 4) 各 出 现 了 一 次 。 就 是 说 (1, 2) 在 R 中 出 现 了 三 次 ， 在 3$ 中 出 现 了 一 次 ， 
min(3, 1)=1， 所 以 (1, 2) 在 Rns 中 出 现 一 次 。 同 理 ，min(1, 2)=1，(3, 分 也 在 RN 5 中 出 现 一 次 。 
元 组 (5, 6) 在 S 中 出 现 一 次 ,但 是 在 R 中 没有 出 现 ， 所 以 在 RN 5 中 出 现 min(0, 1)=0 次 。 这 种 情况 
下 ， 其 结果 是 集合 ， 但 是 任何 集合 也 就 是 包 。 

基于 包 的 关系 R-5 是 包 


A|IB 
2 


1 

1 

原因 是 元 组 (1, 2) 在 R 中 出 现 了 三 次 ， 在 S 中 出 现 了 一 次 ， 所 以 在 RS 中 出 现 max(0, 3 一 1)=2 

次 。 元 组 (3, 4) 在 R 中 出 现 了 一 次 ,在 5 中 出 现 了 两 次 ， 所 以 在 R 一 5 中 出 现 max(0, 1 一 2)=0 次 。 R 
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中 没有 其 他 的 元 组 再 出 现 了 ， 所 以 R-$ 中 也 没有 其 他 的 元 组 了 。 
作为 另 一 个 例子 ， 基 于 包 的 差 $-R 是 包 


a wl 
@ Plt 


这 里 ,元 组 (3, 4) 出 现 了 一 次 ， 因 为 该 元 组 在 $ 中 出 现 的 次 数 减 去 它 在 R 中 出 现 的 次 数 是 1。(5, 6) 
在 R-S 中 出 现 了 一 次 也 是 同样 的 原因 。 口 


5.1.3 包 上 的 投影 操作 
上 面 已 经 解释 了 包 上 的 投影 操作 。 在 例 5.2 中 ， 每 个 元 组 在 投影 操作 时 被 独立 地 处 理 。 如 
果 R 是 如 图 5-2 的 关系 ， 做 包 投影 操作 二 .as (R) 时 得 到 的 将 是 如 图 5-1 的 关系 。 


在 集合 上 的 包 操作 
假设 现 有 两 个 集合 R 和 S$。 它们 可 以 设想 成 恰好 是 没有 重复 元 组 的 包 。 假 定做 交 操 作 : 
RNS， 并 且 是 运用 包 操 作 规 则 来 计算 。 这 个 操作 的 结果 就 跟 把 R 和 5S 看 成 是 集合 的 结果 一 样 。 
也 就 是 说 ， 把 R 和 5 看 成 是 包 ， 元 组 在 RnR 结果 中 的 的 个 数 是 t 在 R 和 5S 中 出 现 的 个 数 较 小 的 
那个 。 由 于 R 和 5S 都 是 集合 ， 元 组 t 在 每 个 集合 中 出 现 的 次 数 只 能 是 0 或 者 1。 无 论 用 包 还 是 集 
合 交 的 规则 ， 结 果 中 t 出 现在 RN S 中 的 次 数 至 多 是 1 次 ,而且 当 t 在 R 和 S$ 中 都 出 现 的 话 ， 它 只 


在 结果 中 出 现 一 次 。 相 似 地 ， 如 果 运 用 包 上 的 差 规 则 来 计算 R 一 S 或 者 5 一 R， 其 结果 与 跟 利 
用 集合 上 的 差 规则 来 计算 同样 的 表达 式 得 到 的 结果 相同 。 

但 是 ， 并 操作 的 情况 就 不 是 这 样 了 ， 其 结果 依赖 于 把 R，5 看 成 是 包 还 是 集合 。 如 果 用 
包 的 规则 来 计算 RUS， 就 算 R 和 38 都 是 集合 的 话 ， 结 果 也 不 一 定 是 集合 。 例 如 ， 元 组 ! 在 R 和 
5 中 各 出 现 一 次 ， 运 用 包 规 则 ， 那 么 在 结果 中 1 出 现 两 次 。 但 是 如 果 运 用 集合 规则 ，t 在 结果 
中 只 出 现 一 次 。 





如 果 在 投影 操作 过 程 中 ， 除 去 了 一 个 或 者 多 个 属性 后 ， 产 生 了 多 个 同样 的 元 组 ， 那 些 重 
复 的 元 组 将 不 会 被 从 包 投影 结果 中 除去 。 来 自 图 5-2 的 三 个 元 组 (1, 2, 5)、(1, 2, 7) 和 (1, 2, 8) 在 
投影 操作 之 后 ， 都 给 出 了 同样 的 结果 (1, 2)。 在 结果 包 当中 ， 元 组 (1, 2) 出 现 了 三 次 ， 但 在 集合 
投影 操作 上 ， 这 个 元 组 仅 出 现 一 次 。 
5.1.4 包 上 的 选择 操作 

在 包 上 应 用 选择 操作 的 时 候 ， 要 独立 地 对 每 个 元 组 应 用 选择 条 件 。 就 像 对 包 所 作 的 其 他 
操作 一 样 ， 在 结果 中 不 去 掉 重 复元 组 。 

例 5.5 如 果 R 是 包 


: 
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那么 包 选 择 cc>s(R) 的 结果 是 
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除了 第 一 个 元 组 之 外 ， 其 余 的 都 满足 条 件 。 最 后 两 个 元 组 是 重复 的 ， 都 在 结果 当中 。 口 


包 的 代数 定律 
一 个 代数 定律 就 是 两 个 关系 代数 表达 式 之 间 的 恒等式 ， 其 中 的 参数 表示 关系 的 变量 。 
无 论 用 什么 样 的 关系 去 代替 等 式 中 的 变量 ， 等 式 都 依然 成 立 。 一 个 例子 是 并 操作 的 交换 律 : 
RUS=SUR。 这 个 定律 无 论 在 R 和 S 是 包 还 是 集合 时 都 成 立 。 但 是 有 很 多 定律 只 适用 于 集合 


的 情况 。 一 个 简单 的 例子 是 ， 集合 差 对 于 并 的 分 配 律 ，(RU5S)-T=(R-T)U (5-7)。 这 个 定律 
只 适用 于 集合 而 不 适用 于 R 和 38 是 包 的 情况 。 假 设 R 和 3 还 有 7 都 含有 元 组 !。 那 么 左边 的 表达 
式 有 一 个 ! 在 结果 中 ， 但 是 右边 的 表达 式 结果 中 没有 +。 如 果 作 为 集合 来 考虑 的 话 ， 那 么 结果 
中 都 没有 +。 在 包 情 况 下 一 些 关 系 代 数 表达 式 的 例子 将 在 习题 5.1.4 和 5.1.5 中 讨论 。 





5.1.5 包 的 笛 卡 儿 积 
包 的 第 卡 儿 积 的 规则 正如 所 想象 的 那样 。 一 个 关系 中 的 每 个 元 组 跟 另 外 一 个 关系 中 的 每 
个 元 组 配对 ， 而 不 问 这 个 元 组 是 不 是 重复 出 现 。 结 果 是 ， 如 果 元 组 ;在 关系 R 中 出 现 了 m 次 ,元 
组 s 在 关系 5 中 出 现 了 n 次 ， 那 么 元 组 rs 在 币 卡 儿 积 R x 5 中 将 出 现 mn 次 。 
例 5.6 ” 设 包 关系 R 和 5 在 图 5-3 中 给 出 。 则 乘积 R x 5 包括 六 个 元 组 ， 就 像 在 图 5-3c 中 那样 。 
注意 ， 对 于 属性 名 的 约定 ， 在 基于 包 的 情况 与 以 前 基于 集合 的 情况 完全 相同 。 这 样 的 话 ， 同 
时 属于 R 和 5 两 个 关系 的 属性 8， 在 积 中 出 现 两 次 ， 于 是 属性 的 前 面 要 加 上 关系 名 前 级 。 口 
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下 询 

:0 

1418| 1|2 

1 二 上 有 

1 本 
a) 关系 R c) 笛 卡 儿 积 Rx5 

图 5-3 计算 包 的 乘积 
5.1.6 包 的 连接 


连接 包 的 操作 也 跟 预 想 的 一 样 。 首 先 对 比 两 个 关系 当中 的 元 组 ， 看 是 不 是 能 组 成 一 对 ， 
如 果 可 以 的 话 ， 这 个 配对 起 来 的 元 组 就 是 结果 中 的 一 员 。 当 产生 结果 的 时 候 ， 不 需要 去 掉 重 
复元 组 。 
例 5.7 图 5-3 中 的 关系 R 和 5 的 自然 连接 R m5 的 结果 是 : 
A | B | C 
11213 
1|12|3 
这 里 R 中 元 组 (1, 2) 跟 $ 中 的 元 组 (2, 3) 连 接 。 因 为 在 R 中 有 两 个 (1, 2) 元 组 ， 在 3 中 有 一 个 (2, 3) 
元 组 ， 这 样 就 有 两 个 配对 成 功 的 元 组 对 得 到 (1, 2, 3)。 其 他 R 和 5 中 的 元 组 均 没 有 成 功 地 连接 。 
另 一 个 关于 关系 R 和 关系 $ 的 例子 是 6 连接 


RodkB<sBS 


产生 的 包 是 
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A | R.B | 5.B 


C 
5 
5 
5 
5 


连接 运算 的 计算 如 下 。 来 自 R 的 元 组 (1, 2 和 来 自 $ 的 元 组 (4, 5) 满 足 连接 的 条 件 。 因 为 它们 都 在 
各 自 的 关系 当中 出 现 了 两 次 ， 则 连接 后 的 元 组 出 现 了 2 x 2 = 4 次 。 另 外 可 能 连接 结果 是 R 的 元 
组 (1, 2) 和 3 的 元 组 (2, 3) 盖 但 是 这 个 不 满足 连接 条 件 ， 所 以 不 在 结果 当中 。 口 


5.1.7 习题 
习题 5.1.1 设 PC 是 图 2-21a 中 的 关系 ， 假 设 要 计算 投影 Apees (PC)。 分 别 给 出 用 集合 和 包 表 示 的 结果 值 ， 
以 及 该 投影 的 平均 值 。 
习题 5.1.2 对 习题 5.1.1 的 情况 计算 投影 zs (PC)。 
习题 5.1.3 该 习题 参照 习题 2.4.3 中 的 战舰 模式 。 
a) 表达 式 toore (C1asses) 给 出 了 一 个 各 种 船只 类 属 火 炮 口径 的 单列 关系 。 根 据 习 题 2.4.3 的 数据 ， 该 结 
果 是 包 关系 还 是 集合 关系 ? 
!b) 给 出 查询 所 有 船只 (而 不 是 船只 类 属 ) 的 火炮 口径 的 表达 式 。 该 表达 式 必须 对 包 有 意义 ， 也 就 是 说 ， 
一 个 值 b 出 现 的 次 数 必须 等 于 具有 这 个 值 的 火炮 口径 的 船只 数目 。 
! 习 题 5.1.4 一 些 对 集合 有 效 的 代数 运算 规则 对 包 也 同样 有 效 。 解 释 下 面 的 规则 为 什么 对 包 和 集合 都 有 效 。 
a) 并 的 结合 律 : (RUS)UT=RU (SU7)。 
b) 交 的 结合 律 : (RNS) 几 T=R NN(S 几 7)。 
c) 自 然 连 接 的 结合 律 : (R45) mT= Rm(S mn)。 
d) 并 的 交换 律 : (RUS)=(SUAR)。 
e) 交 的 交换 律 : (R 门 5S)= (SN R)。 
人 自然 连接 的 交换 律 : (RaS)= (SR)。 
2) Ni (RUs)=NA (R)U A (S), 这 里 上 是 任意 的 属性 列表 。 
h) 并 对 于 交 的 分 配 定律 : RU (SN DD)=(RU5S) N(RUD7D。 
iD ocAoo(R)= Gc(R) 几 gp(R)， 这 里 C 和 D 是 任意 的 有 关 R 的 元 组 的 条 件 。 
!! 习 题 5.1.5 ”下 面 这 些 代数 规则 仅 适 用 于 集合 ， 不 适用 于 包 ， 请 说 明 为 什么 它们 适用 于 集合 ， 并 举 出 不 
适用 于 包 的 反例 。 
a) (RNS)=T= RN(S-—D), 
b) 交 对 于 并 的 分 配 律 : RN (SU7T)= (RNS)U(RN7D)。 
Cc) Gc or p(R)= Oc(R)U oo(R)， 这 里 C 和 D 是 任意 的 有 关 R 的 元 组 的 条 件 。 


5.2 关系 代数 的 扩展 操作 符 


在 2.4 节 中 介绍 了 经 典 的 关系 代数 ，5.1 节 介绍 了 基于 包 的 关系 的 一 些 必要 的 改动 。 这 些 内 
容 形成 了 现代 查询 语言 的 基础 。 但 是 像 SQL 这 样 的 语言 还 有 许多 其 他 在 应 用 中 更 为 重要 的 操 
作 。 因 此 ， 这 一 节 将 全 面 介 绍 关 系 代 数 的 其 他 操作 符 。 增 加 的 内 容 有 : 

1. 消 重复 操作 符 (duplicated-elimination operator) 6 把 包 中 的 重复 元 素 去 掉 ， 只 保留 一 个 
拷贝 在 关系 当中 。 

2. 聚集 操作 符 (aggregation operator) ， 例 如 求 和 或 者 求 平均 值 。 这 些 不 是 关系 代数 的 操 
作 ， 但 却 是 被 分 组 (grouping) 操作 符 所 使 用 〈 下 面 会 讲 到 ) 的 操作 。 聚 集 操作 符 应 用 到 关系 
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的 属性 ( 列 ) 上 ， 比 如 说 是 求 和 操作 ， 就 把 这 一 列 的 所 有 值 加 起 来 求 和 计算 出 结果 。 

3. 分 组 操作 (grouping) 根据 元 组 在 一 个 或 者 多 个 属性 上 的 值 把 关系 的 元 组 拆 分 成 “组 ”。 
这 样 ， 聚 集 操作 就 是 对 分 好 组 的 各 个 列 进 行 计算 。 这 给 我 们 提供 了 在 经 典 关系 代数 表达 式 中 
不 能 表达 的 多 个 查询 的 描述 方式 。 分 组 操作 符 (grouping operator) y 是 组 合 了 分 组 和 聚集 操 
作 的 一 个 算 子 。 

4. 扩展 投影 (extended projecion) 是 普通 7 操作 符 上 增加 了 一 些 增强 功能 的 算 子 。 它 可 以 
将 变量 关系 的 列 作为 参数 进行 计算 ， 并 产生 新 的 列 。 

5. 排序 算 子 (sorting operator) zt 把 一 个 关系 变 成 一 个 元 组 的 列表 ， 并 根据 一 个 或 者 多 个 
属性 来 排序 。 这 个 操作 使 用 时 要 心中 有 数 ， 因 为 一 些 关系 代数 操作 不 能 作用 在 列表 上 。 选 择 
操作 或 投影 操作 可 以 对 列表 运算 ， 并且 其 结果 还 保持 列表 中 元 素 的 顺序 输出 。 

6. 外 连接 算 符 (outerjoin operator) 是 连接 算 符 的 变 体 ， 它 防止 了 悬浮 元 组 的 出 现 。 在 外 
连接 的 结果 中 ， 悬 浮 元 组 用 null 补 齐 ， 这 样 悬 浮 元 组 就 可 以 在 结果 当中 被 表示 出 来 。 


5.2.1 消除 重复 

有 时 候 ， 需 要 用 一 个 算 子 把 包 转 化 为 集合 。 为 此 目的 ， 用 65 (R) 来 返回 一 个 没有 重复 元 组 
的 关系 R。 

例 5.8 如 果 R 关 系 是 


Fo 上 | 
ND ND 中 NI 


[= 


那么 ，5 (R) 为 


[ed | 
心 NI 


注意 元 组 (1 ，2) 在 R 中 出 现 了 三 次 ,但 是 在 6 


5.2.2 聚集 操作 符 

有 一 些 应 用 在 数值 或 字符 串 类 型 的 集合 或 者 包 上 的 操作 符 。 这 些 算 符 被 用 来 汇总 或 者 
“聚集 ”关系 某 一 列 中 出 现 的 值 ， 所 以 被 称 为 聚集 操作 符 (aggregate operator) 。 这 一 类 型 的 标 
准 算 符 是 : 

1. SUM 产生 一 列 的 总 和 ， 得 到 的 是 一 个 数字 值 。 

2.AVG 产生 一 列 的 平均 值 ， 结 果 也 是 数字 值 。 

3. MIN 和 MAX， 当 用 于 数字 值 列 的 时 候 ， 分 别 产生 这 一 列 中 最 小 和 最 大 值 ; 当 应 用 于 字符 值 
列 的 时 候 ， 分 别 产生 的 是 字典 序 的 第 一 个 和 最 后 一 个 值 。 

4. COUNT 产 生 一列 中 的 “ 值 ”的 数目 (并 不 一 定 指 不 同 的 值 )。 同 样 ，COUNT 应 用 于 一 个 关 
系 的 任何 一 个 属性 的 时 候 ， 产 生 的 是 这 个 属性 的 元 组 的 数量 ， 包 括 重复 的 元 组 。 

例 5.9 考虑 关系 : 


一 、 


R) 中 仅 出 现 了 一 次 。 口 


| 
ID ID Ny 
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一 些 应 用 在 这 个 关系 属性 上 聚集 操作 的 例子 是 : 

.SUM(B )=2+4+2+2=10 

.AVG(A)=(1+3+1+1)/4=1.5 

MIN(A)=1 

MAX(B )=4 

COUNT(A)=4 一 


5.2.3 分 组 
人 们 不 仅 希望 对 简单 的 一 整 列 求 平均 值 或 者 是 其 他 的 聚集 操作 ， 还 需要 按照 其 某 个 或 多 
个 属性 值 分 组 ， 然 后 考虑 各 分 组 内 元 组 的 聚集 操作 。 比 如 ， 假 定 要 计算 每 一 个 电影 公司 出 品 
的 电影 总 长 度 是 多 少 分 钟 ， 其 关系 是 : 
studioName | sumOfLengths 


Disney 12345 
MGM 54321 


Wn 全 


其 方法 是 从 关系 Movie(tit1e，year， 
length, genre, studioName, producerC#) 开 
始 ， 对 于 2.2.8 节 中 的 数据 库 实例 ， 必 须 先 根据 
属性 studioName 的 值 把 元 组 分 组 。 然 后 计算 每 
一 组 中 1ength 列 值 的 和 。 可 以 把 Movie 的 元 组 
想象 成 图 5-4 中 那样 ， 然 后 对 每 一 组 应 用 操作 
SUM( 1ength), 





5.2.4 分 组 操作 符 图 5-4 一 个 关系 的 想象 分 组 

现在 介绍 一 个 允许 把 关系 分 组 和 (或 ) 聚集 
的 操作 符 。 如 果 有 分 组 ， 那 么 聚集 操作 就 在 组 中 进行 。 

算 子 y 的 下 标 是 一 个 元 素 的 列表 L， 其 中 每 一 个 元 素 是 下 面 情 况 之 一 : 

a) 应 用 7Y 操 作 的 关系 R 的 一 个 属性 ，R 使 用 这 个 属性 分 组 。 该 属性 就 被 称 为 是 分 组 属性 
(grouping attribute ) 。 

b) 应 用 到 关系 的 一 个 属性 上 的 聚集 操作 符 。 为 了 在 结果 中 给 该 聚集 一 个 属性 名 称 ， 使 用 
一 个 箭头 和 一 个 新 的 名 字 附 加 在 这 个 聚集 的 后 面 。 加 了 下 划 线 的 属性 被 称 作 是 聚集 属性 
(aggregated attribute ) 。 

表达 式 yi (R) 返 回 的 关系 的 产生 过 程 是 : 

1. 把 关系 R 的 元 组 分 组 (group)。 每 一 组 由 LL 中 分 组 属性 为 特定 赋值 的 所 有 元 组 构成 。 如 
果 没 有 分 组 属性 ， 那 么 整个 关系 R 就 是 一 个 组 。 

2. 对 于 每 一 组 ， 产 生 一 个 如 下 内 容 的 元 组 : 

i. 那个 组 的 分 组 属性 值 。 

ii. 本 组 中 所 有 元 组 对 列表 的 聚集 属性 的 聚集 操作 的 结果 。 


6 是 y 的 特殊 情况 
技术 上 讲 ，6 操 作 是 元 余 操 作 。 如 果 R(4 42,…,4n) 是 关系 ， 则 5 (R) 等 价 于 ya ww(R)。 


也 就 是 说 ， 为 了 消除 重复 ， 用 关系 的 所 有 属性 分 组 ， 但 是 没有 聚集 操作 。 于 是 ， 每 一 组 只 
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有 一 个 元 组 对 应 关系 RR 中 一 次 或 多 次 出 现 的 元 组 。 由 于 y 中 每 一 组 只 含有 一 个 元 组 ， 该 分 组 
的 效果 就 是 消除 重复 。 可 是 ， 因 为 6 操作 很 普遍 也 很 重要 ， 所 以 在 研究 代数 定律 和 操作 符 实 
现 算法 时 仍然 将 6 单独 考虑 。 


也 可 以 把 y 和 看 作 是 集合 上 投影 操作 的 扩展 。 也 就 是 说 ， 如 果 R 是 集合 ， Yh 4(R) 
与 x。 ..n(R) 相 同 。 可 是 如 果 R 是 包 ， 那 么 操作 将 消除 重复 ， 而 不 消除 重复 。 


例 5.10 假设 有 如 下 的 关系 : 

StarsIn(title, year, starName) 
现 想 找 出 那些 至 少 出 演 了 三 部 电影 的 影星 ， 以 及 他 们 在 电影 中 出 现 的 最 早年 份 。 第 一 步 就 是 
分 组 ， 以 starName 作 为 分 组 属性 。 显 然 ， 需 要 对 每 一 组 计算 MIN(year )。 但 是 ， 为 了 确定 满 
足 至 少 出 演 三 部 电影 的 条 件 ， 还 需 进 行 COUNT(tit1e) 的 操作 。 

先 从 如 下 的 分 组 表达 式 开始 : 

YstarName, MIN(year) SminY ear, COUNT(title) +etTitle (StarsIn) 
此 表达 式 的 前 两 列 是 结果 需要 的 ， 第 三 列 是 辅助 
属性 ， 用 ctTitle 来 标记 。 该 列 是 用 来 确定 一 个 影 
星 是 否 在 三 部 影片 中 出 现 。 也 就 是 说 ， 在 进行 选 
择 ctTitle>=3 后 ， 继 续 进 行 代数 表达 式 的 计算 ， Gorrile>=3 
然后 投影 到 前 两 个 属性 上 边 。 这 个 查询 的 表达 式 
树 如 图 5-5 所 示 。 口 


5.2.5 扩展 的 投影 操作 符 
现在 重新 考虑 2.4.5 节 中 介绍 的 投影 操作 符 





starName, minYear 


YstarName, MIN( year ) -> minYear, COUNT!( title ) -> ctTitle 





XL(R)。 在 经 典 的 关系 代数 中 ，L 是 R 的 一 些 属性 StarsIn 
的 集合 。 扩 展 这 个 投影 运算 符 ， 使 它 支 持 在 元 组 图 5-5 例 5.10 中 的 查询 的 表达 式 树 


的 组 成 分 量 上 或 选择 分 量 上 的 计算 。 仍 然 用 mm.(R) 来 表示 扩展 投影 (extended projection) 操作 ， 
其 中 ,投影 列表 可 以 是 以 下 所 列 出 的 元 素 之 一 : 

1. R 的 一 个 属性 。 

2. 形 如 x 一 y 的 表达 式 ， 其 中 x 和 y 都 是 属性 的 名 字 。 元 素 x 一 y 表 示 把 R 中 的 x 属性 重 命 名 为 y 
在 结果 模式 中 出 现 。 

3. 形 如 E 一 z 的 表达 式 ， 其 中 有 是 一 个 涉及 R 的 属性 、 常 量 、 算 术 运 算 符 或 者 串 运 算 符 的 表 
达 式 。z 是 表达 式 开 计算 结果 的 属性 的 新 名 字 。 例 如 ，a + b 一 x 作为 一 个 列表 元 素 表 示 a 和 4b 属性 
的 和 ， 并 被 重 命名 为 x。 元 素 clld 一 e 表 示 连 接 字符 串 类 型 属性 c 和 d， 并 重 命名 为 e。 

投影 操作 的 结果 是 通过 依次 考虑 R 的 每 一 个 元 组 得 到 。 用 元 组 中 的 分 量 代替 LL 中 相应 的 属 
性 ， 并 对 其 施 以 适当 的 运算 。 结 果 模 式 的 属性 名 就 是 L 中 指定 的 名 字 。R 中 的 一 个 元 组 产生 结 
果 关 系 中 的 一 个 元 组 。 如 果 在 R 中 有 重复 元 组 的 话 ， 结 果 当 中 肯定 也 有 重复 的 元 组 ,但 是 就 算 
在 R 中 没有 重复 的 元 组 ， 在 结果 当中 同样 有 可 能 产生 重复 元 组 。 

例 5.11 令 R 是 如 下 的 关系 
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那么 ma， 8+c-x(R) 的 结果 是 


4 | 世 
0 |3 
0 |3 
3 |9 


结果 模式 有 两 个 属性 。 一 个 是 4， 即 R 中 的 第 一 个 属性 ， 没 有 进行 重 命 名 。 另 一 个 是 R 中 
的 第 二 个 和 第 三 个 属性 的 和 ， 被 重 命名 为 X。 
另 一 个 例子 zp-4-.x,c-s=7(R) 的 结果 是 
更 


1 
1 
1 
注意 ， 这 个 投影 操作 的 列表 恰好 对 每 一 个 元 组 产生 了 相同 的 结果 ， 这 样 ， 元 组 (1, 1, 1) 就 在 结 
果 中 出 现 了 三 次 。 口 
5.2.6 排序 操作 符 
有 很 多 时 候 人 们 希望 对 关系 当中 的 元 组 按 着 一 个 或 者 多 个 属性 排序 。 经 常 地 ， 当 查询 时 ， 
希望 结果 能 够 排 好 序 。 例 如 ， 当 查询 Sean Connery 所 出 演 的 电影 的 时 候 ， 可 能 希望 结果 是 按 
着 title 的 字典 序 排列 ， 这 样 就 可 以 很 容易 地 找到 所 关心 的 某 一 部 电影 。 当 研究 查询 优化 时 ， 可 
以 明白 如 果 先 把 关系 排序 ， 那 么 DBMS 执 行 查询 操作 的 效率 会 得 到 提高 。 
表达 式 zi (R) (其 中 R 是 关系 ，L 是 R 中 某 些 属性 的 列表 ) 表示 的 就 是 按照 L 排 序 的 关系 R 本 
身 。 如 果 L 是 列表 A1, 4;, …, A,， 那 么 R 的 元 组 就 先 按 属性 4! 的 值 先 排序 ， 对 于 41 属性 相等 的 元 
组 ， 就 按 A; 的 值 排序 ， 依 此 类 推 。 如 果 A, 属性 也 相同 的 话 ， 则 这 些 元 组 的 顺序 可 以 是 任意 的 。 
例 5.12 ”如 果 关系 R 的 模式 是 R(A, B, C)， 那 么 Ttc, a (R) 就 把 R 中 的 元 组 按 着 C 的 值 排序 ， 对 
于 C 属 性 值 相 同 的 元 组 ， 以 8 属性 的 值 确定 它们 的 顺序 。 如 果 在 8 和 C 属 性 上 都 相同 的 话 ， 这 些 
元 组 之 间 的 顺序 可 以 是 任意 的 。 口 
如 果 使 用 其 他 操作 符 (如 连接 ) 到 的 排序 结果 ， 则 排序 的 顺序 通常 是 没有 意义 的 ， 列 表 
中 的 元 素 应 该 被 看 作为 包 ， 而 不 是 列表 (list)。 可 是 ， 包 投影 可 以 保持 顺序 。 而且， 列表 上 
的 选择 将 丢弃 那些 不 满足 选择 条 件 的 元 组 ， 余 下 的 元 组 可 以 按照 原来 的 顺序 排序 。 


5.2.7 外 连接 

连接 操作 的 一 个 性 质 就 是 有 可 能 产生 悬浮 元 组 (dangling)。 也 就 是 说 ， 这 些 元 组 的 连接 
属性 不 能 跟 另 外 关系 的 任何 一 个 元 组 的 连接 属性 匹配 。 因 为 悬浮 元 组 在 结果 中 没有 任何 痕迹 ， 
所 以 这 样 的 连接 操作 并 不 能 完全 反映 原始 关系 的 全 部 信息 。 在 某 些 场合 ， 用 户 不 希望 这 种 情 
形 ， 因 此 在 某 些 商 用 系统 中 ， 出 现 了 一 个 连接 的 变种 外 连接 (outerjoin) 操作 。 

先 来 考虑 自然 连接 的 例子 ， 其 连接 发 生 在 两 个 关系 中 具有 相等 值 的 同样 属性 上 。 外 连接 
(outerjoin) 及 品 $ 开 始 进行 的 操作 是 RemS， 然 后 再 把 来 自 R 或 者 8 的 悬浮 元 组 加 入 其 中 。 加 入 
的 元 组 用 null 符 号 上 补 齐 那些 出 现在 结果 中 但 不 具有 值 的 属性 。 注 意 ， 符 号 上 在 SQL 中 写作 
NULL (参见 2.3.4 节 ) 。 

例 5.13 ”图 5-6a 和 b 中 有 两 个 关系 U 和 V。U 的 元 组 (1, 2, 3) 可 以 和 V 的 元 组 (2, 3, 10)、(2, 3， 
11) 连 接 ， 这 三 个 元 组 不 是 悬 译 的 。 但 是 ， 另 外 三 个 元 组 一 一 来 自尽 的 (4, 5, 6)、(7, 8, 9) 和 来 自 
V 的 (6, 7, 12) 一 一 都 是 甚 浮 的 。 它 们 在 8 和 C 分 量 上 不 一 致 。 这 样 在 U 吼 V 中 ， 如 图 5-6c 所 示 ， 


性 
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三 个 巧 浮 元 组 中 疫 有 值 的 属性 被 二 补 齐 ， 它 们 是 V 的 了 属性 和 V 的 4 属性 。 口 
基本 (自然 ) 外 连接 有 几 种 不 同 的 变 体 。 左 外 连接 (left outerjoin) R 扩 类似 于 外 连接 ， 
但 是 只 有 左 变量 R 的 悬浮 元 组 被 补 齐 上 加 入 到 结果 中 。 类 似 地 ， 右 外 连接 (right outerjoin ) 
R 吧 NS 只 有 右 变 量 8 的 悬浮 元 组 被 用 上 补 齐 加 入 结果 。 
例 5.14 如 果 U 和 V 如 图 5-6 所 示 ， 那 么 U 邮 .V 的 结果 是 : 


A|B CID 





U% RV 的 结果 是 





a) 关系 U c) 结果 Um oV 
图 5-6 关系 的 外 连接 


另外 ， 所 有 的 三 个 自然 外 连接 算 子 都 有 其 相应 的 6 连接 版 本 。6 外 连接 的 操作 是 ， 先 进行 9 
连接 ， 然 后 将 那些 不 能 匹配 其 他 关系 的 元 组 用 上 补 齐 。 
用 凶 .表示 一 个 带 条 件 C 的 9 外 连接 。 同 样 也 可 以 用 L 或 
者 R 来 修饰 这 个 算 符 ， 使 其 表示 左 外 连接 或 者 右 外 连接 。 

例 5.15 令 U 和 V 是 图 5-6 中 的 关系 。 考 虑 U3 svcV。 
U 的 元 组 (4, 5, 6)、(7, 8, 9) 分 别 和 V 的 元 组 (2, 3, 10)、 
(2, 3，11) 满 足 匹 配 条 件 。 这 样 它们 都 不 是 悬浮 元 组 。 
但 是 ，U 的 元 组 (1, 2, 3) 和 V 的 元 组 (6, 7, 12) 是 悬浮 的 。 
这 些 电 浮 元 组 被 加 入 到 结果 关系 ， 其 结果 在 图 5-7 中 列 
出 。 , 图 
5.2.8 习题 
习题 5.2.1 已 知 关系 

R(A, B):{(0, 1), (2, 3), (0, 1), (2, 4), (3, 4)} 
S(B, C): {(0,1),(2,4),(2,5),(3,4),(0,2),(3,4)} 





图 5-7 9 外 连接 的 例子 


计算 下 面 的 表达 式 : 
a) a+B, 42,82(B); b) zari,c-1(S); c) Ta.a(R); d) Ts,c(S); e) 6(R)， 
f) 6(5); g) yasuma)(R); h) yaavecc)(S)s !D ya(R); 1]) ya,maxco(R ba 5); 


k) RSLS; 1) RS; m) R&S; n) RRB<S.BS 
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! 习 题 5.2.2 ”一 元 操作 三 如 果 满 足下 面 的 条 件 则 被 称 为 是 昧 等 (idempotent) 的 : 对 于 任何 关系 R 有 
了 Wf CR)) = 了 (R)。 也 就 是 ， 应 用 f 若干 次 跟 应 用 f 一 次 的 结果 一 样 。 判 断 下 面 的 哪些 操作 是 徊 等 操作 。 
对 于 那些 不 是 的 给 出 理由 或 举例 说 明 ， 

a) 0 b) x Ch.0 d) yr e)t 

! 习 题 5.2.3 ”一 种 能 用 扩展 的 投影 操作 来 实现 、 但 不 能 用 一 般 的 投影 操作 ( 见 2.4.5 节 定义 ) 来 实现 的 例 
子 是 复制 列 。 例 如 ， 如 果 R(4, B) 是 一 个 关系 ， 那 么 zs,a(R) 对 于 任何 R 中 的 (a, b) 元 组 产生 元 组 (a, a)。 
试问 这 个 操作 能 否 用 2.4 市 中 定义 的 传统 的 关系 代数 操作 来 实现 ?说 明 你 的 理由 。 


5.3 关系 逻辑 


作为 另外 一 种 基于 代数 的 抽象 查询 语言 ， 可 以 用 逻辑 形式 来 表示 查询 。 逻 辑 查 询 语言 
Datalog (database logic) 由 if-then 规 则 组 成 。 这 些 规则 表示 : 从 某 个 关系 的 特定 元 组 的 组 合 
可 以 推断 出 另 一 些 元 组 必定 满足 另 一 关系 ， 或 者 满足 查询 的 结果 。 


5.3.1 谓词 和 原子 
关系 在 Datalog 中 由 谓词 (predicate) 表示 。 每 个 谓词 拥有 固定 数目 的 参数 ， 一 个 谓词 和 
它 的 参数 一 起 被 称 为 原子 (atom)。 原 子 的 语法 就 像 传统 编程 语言 中 国 数 调 用 的 语法 。 例 如 ， 
P(xi,x2,，…, Xn) 即 是 一 个 由 谓词 P 和 参数 ,xi,…, x 组 成 的 原子 。 
实质 上 谓词 就 是 一 个 返回 布尔 值 的 函数 名 。 如 果 R 是 一 个 包含 a 个 固定 顺序 的 属性 的 关系 ， 
那么 也 可 以 用 R 作 为 对 应 这 个 关系 的 谓词 名 。 如 果 (ai, a2,…, a;) 是 满足 R 的 元 组 ， 那 么 原子 
R(a1, az, …, am) 的 值 为 TRUE， 否 则 原子 的 值 为 FALSE。 
注意 ， 谓 词 定义 的 关系 是 集合 关系 。5.3.6 节 中 将 讨论 如 何 把 Datalog 扩 展 到 包 。 可 是 除 此 
之 外 ， 其 他 章节 中 Datalog 都 是 处 理 集合 关系 。 
例 5.16” 令 R 是 关系 
A | B 
1 13 
3 |4 


那么 R(1,2) 为 true，R(3,4) 也 为 true。 当 x 和 y 为 其 他 任意 值 时 ，R(x, y) 都 为 false。 口 
谓词 可 以 拥有 变量 和 常量 作为 参数 。 如 果 原 子 有 变量 作为 它 的 一 个 或 多 个 参数 ， 那 么 它 
是 一 个 以 这 些 变量 值 为 参数 并 返回 TRUE 或 FALSE 的 布尔 值 函 数 。 
例 5.17 ”如果 R 是 例 5.16 的 谓词 ， 那 么 函数 R(x, y) 表 示 : 对 任意 x 和 y， 元 组 (x, y) 是 否 在 关 
系 R 中 。 对 于 例 5.16 中 给 出 的 特定 例子 ， 当 


1 或 

2.x=3 且 y=4 了 时 
R(x y) 返 回 TRUE， 否 则 返回 FALSE。 另 举 一 例 ， 若 z = 2， 原 子 R(1, z) 返 回 TRUE， 否 则 返回 
FALSE 。 口 
5.3.2 算术 原子 


在 Datalog 中 还 有 另外 一 种 很 重要 的 原子 : 算术 原子 (arithmetic atom)。 这 种 原子 是 对 两 
个 算术 表达 式 作 比较 ， 例 如 x<y 或 zx + 1>y + 4xz。 为 了 区 分 ， 我 们 把 在 5.3.1 节 中 介绍 的 原子 
称 为 关系 原子 (relational atom)。 两 者 都 是 “原子 ”。 

注意 ， 算 术 原 子 和 关系 原子 都 将 所 有 出 现在 原子 中 的 变量 值 作为 参数 ， 并 且 都 返回 一 个 
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布尔 值 。 实 际 上 ， 诸 如 “<” 或 “> ”之 类 的 算术 比较 符号 像 关 系 名 一 样 包含 所 有 满足 它 的 元 
组 。 因 此 ， 可 以 将 关系 “<” 看 作 第 一 分 量 小 于 第 二 分 量 的 所 有 元 组 ， 例 如 (1, 2) 或 (一 1.5, 65.4)。 
然而 要 记 住 ， 数 据 库 中 的 关系 总 是 有 限 的 ， 而 且 通 常 随 着 时 间 变 化 。 相 反 地 ， 算 术 比 较 关系 
(如 “<”) 是 无 限 的 并 且 不 变 。 


5.3.3 ”Datalog 规 则 和 查询 

与 经 典 关 系 代数 类 似 的 操作 在 Datalog 中 称 作 规 则 (rule)， 它 包括 : 

1. 一 个 称 为 头 部 (head) 的 关系 原子 ; 

2. 符号 一 ， 经 常 读 作 “if”， 

3. 主体 (body) 部 分 ， 由 一 个 或 多 个 称 为 子 目 标 (subgoal) 的 原子 组 成 。 原 子 可 以 是 关 
系 原 子 或 算术 原子 。 子 目标 之 间 由 AND 连 接 ， 任 何 子 目标 之 前 都 可 随意 添加 逻辑 算 子 NOT。 

例 5.18 Datalog 规 则 

LongMovie(t,y) 人 Movies(t,y,l,g,s,p) AND 1 > 100 
定义 了 “长 ”影片 的 集合 ， 该 类 影片 时 间 长 于 100 分 钟 。 它 使 用 到 了 具有 如 下 模式 的 标准 关系 
mov1es : 

Movies(title, year, length, genre, studioName, producerC#) 

这 个 规则 的 头 部 是 原子 LongMovie(t, y)。 规 则 的 主体 包括 如 下 两 个 子 目 标 : 

1. 第 一 个 子 目 标 包括 谓词 Movies 和 六 个 参数 ， 对 应 于 Movies 关 系 的 六 个 属性 。 每 个 参数 
都 有 不 同 的 变量 : :是 tit1e 分 量 ，> 是 year 分 量 ，/ 是 1ength 分 量 ， 依 次 类 推 。 可 以 把 子 目 标 
解释 为 :“ 令 (ty， 1, c, s, Pp) 作 为 当前 Movies 关 系 实例 的 一 个 元 组 ”更 确切 地 说 ， 当 这 六 个 变 
量 是 Movies 关 系 元 组 的 六 个 分 量 时 ，Movies(t, y, 1, c, 5s,p) 为 真 。 

2. 第 二 个 子 目 标 是 1>100。 当 一 个 Movies 元 组 的 length 分 量 不 小 于 100 时 该 子 目标 为 真 。 

这 个 规则 总 体 上 可 以 看 作 是 说 : 当 Movies 中 有 一 个 元 组 满足 以 下 条 件 时 ，LongMovie(+， 
y) 为 真 : 

a) ty 是 前 两 个 分 量 (title 和 year)， 

b) 第 三 个 分 量 (length) 至 少 为 100， 

c) 分 量 4 到 6 为 任意 值 。 

注意 ， 这 个 规则 等 价 于 关系 代数 中 的 “赋值 语句 ”: 

LongMovie := iitlewear (0length>100(Movies)) 

其 右边 是 一 个 关系 代数 表达 式 。 口 
匿名 变量 

Datalog 规 则 经 常 有 一 些 变 量 只 出 现 一 次 。 这 些 变 量 的 名 字 是 不 相干 的 。 只 有 当 一 个 变 
量 出 现 不 止 一 次 时 才 需 注意 它 的 名 字 ， 并 且 它 第 二 次 和 后 面 更 多 次 的 出 现 都 视 为 同一 个 变 
量 。 这 样 ， 为 了 方便 ， 将 允许 使 用 常规 符号 下 划 线 _ 作 为 原子 的 参数 ， 表 示 在 那里 出 现 的 变 


量 。 多 个 _ 的 出 现代 表 不 同 的 变量 ， 而 不 是 同一 个 变量 。 举 例 来 说 ， 例 5.18 的 规则 可 以 写作 : 


LongMovie(t,y) t+- Movies(t,y,1,-,-,-) AND 1 > 100 


这 里 三 个 仅 出 现 一 次 的 变量 g, s, p 都 被 下 划 线 代替 。 其 他 变量 都 在 规则 中 出 现 两 次 ， 所 以 不 
能 替换 它们 。 


Datalog 中 的 查询 (query) 是 一 个 或 多 个 规则 的 组 合 。 如 果 只 有 一 个 关系 出 现在 规则 头 部 ， 
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那么 这 个 关系 的 值 就 是 查询 的 结果 。 因 此 在 例 5.18 中 ，LongMovie 就 是 查询 的 结果 。 如 果 规 则 
头 部 有 不 止 一 个 关系 ， 那 么 这 些 关 系 中 的 一 个 是 查询 的 结果 ， 其 余 的 都 是 辅助 定义 查询 结果 。 
当 有 多 个 谓词 被 规则 集合 定义 时 ， 通 常 都 指定 Answer 为 查询 结果 名 。 


5.3.4 _ Datalog 规 则 的 意义 

例 5.18 为 Datal10g 规 则 的 意义 给 出 了 一 个 提示 。 更 确切 地 说 ， 假 设 规则 的 变量 涉及 所 有 可 
能 的 值 ， 只 要 这 些 变量 的 值 使 得 所 有 子 目 标 为 真 ， 那 么 对 应 于 这 些 变量 的 规则 头 部 的 值 就 清 
楚 了 ， 并 可 把 结果 元 组 加 入 到 头 部 谓词 的 关系 中 。 

举例 来 说 ， 假 设 例 5.18 中 的 六 个 变量 涉及 所 有 可 能 值 。 但 是 只 有 当 (# y, 1, c, s, Dp) 的 值 对 应 
到 Movies 中 的 元 组 分 量 组 合 时 ， 所 有 子 目 标的 值 才 为 真 。 而 且 ， 因 为 有 子 目 标 ! 关 100， 所 以 
只 有 元 组 分 量 1ength 〈 即 变量 1) 的 值 至 少 为 100 时 ， 该 子 目 标 才 为 真 。 当 找到 这 样 一 种 值 的 
组 合 时 ， 就 把 元 组 (1, 7) 放 在 规则 头 部 的 LongMovie 关 系 中 。 

然而 在 规则 中 使 用 变量 还 是 有 限制 的 ， 该 限制 是 要 使 得 一 条 规则 的 结果 是 一 个 有 限 的 关 
系 ， 从 而 包含 算术 子 目 标 或 否定 (negated) 子 目 标 〈 前 面 有 N0T 算 子 ) 的 规则 具有 直观 的 意义 。 
这 个 限制 条 件 称 作 安 全 (safety) 条 件 ， 含义 是 : 

。 每 个 在 规则 中 任意 位 置 出 现 的 变量 都 必须 出 现在 主体 的 某 些 非 否定 的 关系 子 目 标 中 。 

尤其 是 ， 任 何在 规则 头 部 、 否 定 关系 子 和 目标 或 任意 算术 子 目 标 中 出 现 的 变量 ， 也 必须 出 
现在 主体 的 非 否 定 的 关系 子 目 标 中 。 

例 5.19 考虑 例 5.18 中 的 规则 

LongMovie(t,y) 人 Movies(t,y,1,.,-,-) AND 1 > 100 

第 一 个 子 目标 是 非 否 定 的 关系 子 目 标 ， 它 包含 了 所 有 在 规则 中 出 现 的 变量 ， 包 括 用 下 划 
线 表示 的 匿名 变量 。 特 别 是 在 头 部 出 现 的 两 个 变量 :和 y 也 都 在 主体 的 第 一 个 子 目标 中 出 现 。 
同样 的 ， 变 量 ! 出 现在 算术 子 目 标 中 ， 但 它 也 出 现在 第 一 个 子 目 标 中 。 因 此 这 是 安全 规则 。 口 

例 5.20 下 面 的 规则 有 三 处 违反 安全 条 件 : 

P(x,y) t- Q(x,2) AND NOT R(w,x,z) AND x<y 

1. 变量 y 出 现在 头 部 但 不 在 主体 的 任何 非 否 定 关系 子 目 标 中 。 注 意 ， 出 现在 算术 子 目 标 
x<y 中 的 y 并 不 能 有 助 于 把 y 的 值 限定 在 有 限 集合 内 。 只 要 对 应 w, x, z 值 的 a, 5, “满足 前 两 个 子 目 
标 ， 就 必须 增加 无 限 多 个 d>b 元 组 (b, d) 到 头 部 关系 P。 

2. 变量 w 出 现在 一 个 否定 的 关系 子 目 标 中 ， 但 不 在 非 否 定 的 关系 子 目标 中 。 

3. 变量 y 出 现在 一 个 算术 子 目 标 中 ,但 不 在 非 否定 的 关系 子 目 标 中 。 
因此 ， 这 不 是 一 个 安全 规则 ， 不 能 用 在 Datalog 中 。 口 

还 有 另 一 种 方法 定义 规则 的 意义 。 不 去 考虑 所 有 可 能 的 变量 赋值 ， 而 是 考虑 对 应 于 每 个 
非 否 定 关系 子 目标 的 关系 的 元 组 集合 。 如 果 对 每 个 非 否定 关系 子 目标 的 某 些 元 组 的 赋值 是 一 
致 (consistent) 的 ， 也 就 是 说 对 一 个 变量 的 每 次 出 现 都 赋 同 一 个 值 ， 则 考虑 对 规则 的 所 有 变 
量 的 结果 赋值 。 注 意 ， 因 为 规则 是 安全 的 ， 所 以 每 个 变量 都 被 赋 了 一 个 值 。 

对 每 种 一 致 赋值 ， 考 虑 否定 关系 子 目 标 和 算术 子 目标 ， 看 看 变量 的 赋值 是 否 使 得 它们 都 
为 真 。 记 住 ， 若 一 个 否定 关系 子 目 标的 原子 为 假 ， 则 该 子 目 标 为 真 。 如 果 所 有 子 目标 为 真 ， 
则 在 这 种 变量 赋值 下 的 规则 头 部 的 元 组 也 清楚 了。 该 元 组 被 加 入 到 谓词 头 部 的 关系 中 。 

例 5.21 考虑 Datalog 规 则 

P(x,y) + Q(x,z) AND R(z,y) AND NOT Q(x,y) 

设 关系 QO 包含 两 个 元 组 (1, 2) 和 (1, 3)。 设 关系 R 包 含 元 组 (2, 3) 和 (3, 1)。 这 里 有 两 个 非 否定 的 关 
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系 子 目标 C(x, z) 和 R(z, y)， 所 以 必须 分 别 考 虑 这 两 个 子 目标 的 关系 2 和 R 中 元 组 的 所 有 赋值 组 


合 。 图 5-8 中 的 表格 考虑 了 所 有 四 种 组 合 。 
| | Q(x, z) 的 元 组 R(z, y) 的 元 组 ”| 一 致 赋值 ? 头 部 的 结果 
1) 是 不 是 = 


2) 
3) 
4) 












图 5-8 Q(x, z) 和 R(z, y) 中 元 组 的 所 有 可 能 赋值 


图 5-8 中 的 第 二 和 第 三 选项 是 不 一 致 的 。 每 个 选项 都 对 变量 z 赋 给 了 两 个 不 同 的 值 。 因 此 ， 
不 再 考虑 这 些 元 组 的 赋值 。 

第 一 个 选项 中 ， 子 目标 Q(x, z) 被 赋值 为 元 组 (1, 2)， 子 目标 R(z, y) 被 赋值 为 元 组 (2, 3)， 这 
是 一 致 的 赋值 ，x、y 和 z 分 别 被 赋值 为 1、3、2。 下 面 开 始 检验 其 他 不 是 非 否 定 关 系 的 子 目 标 。 
仅 有 一 个 : NOT Q(x,y)。 对 这 一 赋值 ， 该 子 目标 成 为 NOT Q(1，3)。 由 于 (1, 3) 是 C 的 一 个 元 组 ， 
这 个 子 目 标 为 假 ， 对 于 这 个 赋值 没有 头 部 元 组 生成 。 

最 后 的 选项 是 (4)。 该 选项 的 赋值 是 一 致 的 : x+，y，z 分 别 被 赋值 为 1, 1, 3。 子 目标 NOT 
Q(x,y) 的 值 为 NOT Q(1,1)。 由 于 (1, 1) 不 是 2 的 元 组 ， 这 个 子 目 标 为 真 。 这 样 根据 这 一 变量 赋 
值 计算 头 部 P (x, y) 得 到 P(1, 1)。 所 以 这 个 元 组 (1, 1) 在 关系 P 中 。 既 然 已 经 讨论 过 所 有 可 能 的 
赋值 ， 那 么 这 个 元 组 就 是 P 中 的 唯一 元 组 。 口 


5.3.5 扩展 谓词 和 内 涵 谓 词 

对 以 下 两 者 加 以 区 分 是 必要 的 : 

。 扩 展 谓词 (Extensional predicate) : 这 种 谓词 的 关系 存放 在 数据 库 中 。 

。 内 涵 谓 词 (Intension predicate) : 这 种 谓词 的 关系 是 由 一 个 或 多 个 Datalog 规 则 计算 出 来 。 

这 两 种 谓词 之 间 的 区 别 等 同 于 关系 代数 表达 式 的 操作 数 与 关系 代数 表达 式 计算 出 的 关系 
之 间 的 区 别 。 前 者 ， 关 系 代数 表达 式 操作 数 是 “可 扩展 的 ”( 也 就 是 说 ， 通 过 它 的 扩展 定义 关 
系 ， 也 即 “ 关 系 的 当前 实例 ”的 另 一 命名 ) ; 后 者 ， 关 系 代数 表达 式 计算 出 的 关系 可 以 是 最 终 
结果 ， 也 可 以 是 对 应 某 些 子 表达 式 的 中 间 结 果 ， 这 些 关 系 是 “内 涵 的 ”( 即 是 由 程序 员 的 “ 意 
图 ”决定 ) 。 

当 谈 论 Datalog 规 则 时 ， 如 果 谓 词 分 别 是 “扩展 的 ”或 “内 涵 的 "， 那 么 也 应 当 提 及 扩展 谓 
词 和 内 涵 谓 词 所 对 应 的 关系 。IDB (intensional database) 是 内 涵 数 据 库 的 缩写 ， 表示 内 涵 谓 
词 或 它 对 应 的 关系 。 同 样 地 ，EDB (extensional database) 是 扩展 数据 库 的 缩写 ， 表示 扩展 谓 
词 或 它 对 应 的 关系 。 

那么 在 例 5.18 中 ，Movies 是 一 个 EDB 关 系 ， 由 它 的 扩展 来 定义 。 谓 词 Movies 同 样 是 一 个 
EDB 谓 词 。LongMovie 关 系 和 谓词 都 是 内 涵 的 。 

尽管 EDB 可 以 出 现在 规则 主体 中 ， 但 是 EDB 谓 词 不 能 出 现在 规则 头 部 。IDB 谓 词 可 以 出 现 
在 规则 的 头 部 和 主体 中 ， 或 者 同时 出 现在 这 两 个 位 置 。 利 用 头 部 为 同一 IDB 谓 词 的 多 个 规则 建 
立 一 个 关系 的 方法 被 普遍 使 用 。 例 5.24 中 将 通过 两 个 关系 的 并 给 出 这 种 方法 的 举例 。 

通过 使 用 一 系列 的 内 涵 谓 词 ， 可 以 逐步 建立 更 为 复杂 的 EDB 关 系 。 这 个 过 程 近似 于 用 几 
个 算 符 建立 关系 代数 表达 式 。 
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5.3.6 Datalog 规 则 应 用 于 包 

Datalog 本 质 上 是 集合 逻辑 。 然 而 只 要 没有 否定 的 关系 子 目 标 ， 关 系 是 集合 时 计算 Datalog 
规则 的 方法 对 于 关系 是 包 时 同样 适用 。 当 关系 是 包 时 ， 使 用 5.3.4 节 给 出 的 计算 Datalog 规 则 的 
第 二 种 方法 在 概念 上 更 加 简单 。 该 方法 是 针对 每 个 非 否 定 的 关系 子 目标 ， 找 出 其 谓词 关系 的 
所 有 元 组 。 如 果 每 个 子 目 标的 元 组 选择 对 每 个 变量 给 出 了 一 致 的 变量 赋值 ， 并 且 算 术 子 目标 
都 为 真 ” ， 那 么 就 能 够 知道 这 个 赋值 的 规则 头 部 是 什么 样 。 该 结果 元 组 被 放 和 人 头 部 关系 之 中 。 

既然 现在 要 处 理 包 ， 就 不 消除 头 部 的 重复 元 组 。 而 且 ， 当 考虑 子 目标 的 所 有 元 组 的 组 合 
时 ， 一 个 子 目标 关系 中 重复 出 现 n 次 的 一 个 元 组 在 被 作为 该 子 目 标 元 组 与 其 他 子 目 标 元 组 合并 
时 也 被 处 理 了 n 次 。 

例 5.22 考虑 规则 

H(x,2) +- R(x,y) AND S(y,z) 
其 中 关系 R(A, B) 包 括 以 下 元 组 : 


5(B8, C) 包 括 元 组 : 


当 第 一 个 子 目标 被 赋值 为 关系 R 中 的 元 组 (1, 2)， 且 第 二 个 子 目标 被 赋值 为 关系 $ 中 的 元 组 (2, 3) 
时 ， 唯 一 一 次 得 到 对 所 有 子 目 标的 一 致 赋值 (也 就 是 y 变 量 的 赋值 对 每 个 子 目标 都 一 样 )。 由 
于 (1,2) 在 R 中 出 现 两 次 ，(2, 3) 在 5 中 出 现 一 次 ， 那 么 有 两 次 元 组 赋值 使 得 变量 x = 1,y = 2，z = 
3。 头 部 元 组 (x, z) 对 这 两 次 赋值 都 是 (1, 3)。 因 此 ， 元 组 (1, 3) 在 头 部 关系 H 中 出 现 两 次 ， 并且 
没有 其 他 元 组 出 现 。 也 就 是 说 ， 关 系 


i118 
1 | 3 

就 是 这 个 规则 定义 的 头 部 关系 。 更 一 般 的 情况 是 ， 若 元 组 (1, 2) 在 R 中 出 现 n 次 ， 元 组 (2, 3) 在 5 

中 出 现 m 次 ， 那 么 元 组 (1, 3) 在 H 中 就 要 出 现 nm 次 。 口 


如 果 一 个 关系 由 若干 规则 定义 ， 那 么 结果 是 每 个 规则 生成 的 元 组 的 包 的 联合 。 

例 5.23 考虑 一 个 由 以 下 两 条 规则 定义 的 关系 及: 

H(X,y) 人 S(x,y) AND x>1 

H(x,y) 全 S(x,y) AND y<5 
其 中 关系 5(8, C) 和 例 5.22 中 一 样 ， 也 就 是 $ = {(2, 3), (4, 5), (4, 5)}。 由 于 5 中 三 个 元 组 的 第 一 
个 分 量 都 大 于 1!， 因 此 第 一 个 规则 把 这 三 个 元 组 依次 放 入 中。 由 于 (4, 5) 不 满足 条 件 y < 5， 第 
二 个 规则 只 把 元 组 (2, 3) 放 入 且 中 。 这 样 ， 结 果 关 系 有 有 元 组 (2, 3) 的 两 个 拷贝 和 元 组 (4, 5) 的 两 
个 拷贝 。 口 


日 注意， 规则 中 不 能 有 任何 否定 的 关系 子 目 标 。 在 包 模 型 下 ， 任 意 拥有 否定 关系 子 目 标的 Datalog 规 则 的 含义 
还 没有 明确 的 定义 。 
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5.3.7 习题 

习题 5.3.1 用 Datalog 写 出 习题 2.4.1 的 所 有 查询 。 只 能 使 用 安全 规则 ， 但 可 以 使 用 与 复杂 关系 代数 表达 
式 的 子 表达 式 对 应 的 若干 IDB 谓 词 。 

习题 5.3.2 用 Datalog 写 出 习题 2.4.3 的 所 有 查询 。 只 能 使 用 安全 规则 ， 但 可 以 使 用 若干 IDB 谓 词 。 

! 习 题 5.3.3 ”如 果 关 系 子 目 标的 谓词 是 有 限 关 系 ， 那 么 对 Datalog 规 则 的 安全 性 要 求 将 充分 保证 头 谓 词 是 
一 个 有 限 关 系 。 但 是 这 个 要 求 太 严格 了 。 给 出 一 个 Datalog 规 则 的 例子 ， 使 其 虽然 违反 这 个 条 件 ， 但 
不 管 将 其 中 关系 谓词 赋值 为 任何 有 限 关 系 ， 其 头 部 关系 始终 是 有 限 关 系 。 


5.4 关系 代数 与 Datalog 


2.4 节 中 的 每 个 关系 代数 算 子 都 可 以 由 一 条 或 多 条 Datalog 规 则 模拟 。 这 一 节 将 依次 邯 虑 每 
个 算 子 。 然 后 考察 如 何 组 合 一 些 Datalog 规 则 来 模拟 复杂 代数 表达 式 。 虽 然 在 此 并 设 给 出 证 明 ， 
但 任何 一 个 安全 Datalog 规 则 都 可 以 用 关系 代数 表达 。 然 而 ， 当 允许 多 个 规则 交互 作用 时 ， 
Datalog 查 询 比 关系 代数 功能 更 强 ， 它 能 表达 代数 中 不 能 表达 的 递归 功能 (参见 例子 5.35)。 


5.4.1 布尔 操作 

关系 代数 的 布尔 操作 一 一 并 、 交 、 差 一 一 可 以 简单 地 用 Datalog 表 达 。 下 面 将 分 别 描述 其 
所 需要 的 规则 。 这 里 假定 R 和 3 是 具有 同样 多 属性 "的 关系 , 并 且 使 用 Answer 作 为 头 谓 词 的 名 字 。 
虽然 其 结果 的 名 字 可 以 任意 ， 但 对 不 同 操作 的 结果 选择 不 同 的 谓词 很 重要 。 

。 并 两 个 关系 的 并 RU 5 使 用 两 条 规则 和 个 不 同 的 变量 


QI 42,°"*, Un 


其 中 一 个 规则 有 单个 子 目 标 R(a1, a2…, an)， 另 一 个 规则 有 单个 子 目标 S(a1, aa a)。 两 个 
规则 都 只 有 头 Answer(a1, a2,…, an)。 作 为 结果 ， 每 个 来 自 R 的 元 组 和 每 个 5 的 元 组 都 被 放 入 
结果 关系 中 。 
* 交 两 个 关系 的 交集 Rns 使 用 具有 如 下 主体 的 规则 
R(ai, az an) AND S(ai, az an) 


头 部 是 Answer(ai, a2…, an)。 于 是 当 且 仅 当 元 组 同时 在 R 和 3 时 ， 该 元 组 出 现在 结果 关系 中 。 
。 差 关系 R 和 5 的 差 R-5 使 用 具有 如 下 主体 的 规则 : 
Railaz , 4n) AND NOT S(ai, a2,°…, an) 


头 部 是 Answer(a1, a2…, an)。 于 是 当 且 仅 当 元 组 在 R 中 出 现 但 不 在 $ 中 出 现时 ， 该 元 组 才 

可 出 现在 结果 关系 中 。 

例 5.24 令 R 和 5 的 关系 模式 是 R(4, B, C) 和 5S(4, B, C)。 为 了 避免 二 义 性 ， 对 各 种 结果 使 用 
不 同 的 谓词 ， 而 不 仅仅 用 Answer 。 

使 用 如 下 两 个 规则 计算 并 RU $: 


1. U(x,y,2) + R(x,y,2) 
2. U(x,y;2) 全 S(x,y,2Z) 


规则 (1) 说 明 R 中 的 每 个 元 组 是 IDB 关 系 U0 的 元 组 。 同 样 ， 规 则 (2) 说 明 5 中 的 每 个 元 组 都 在 U 中 。 
为 计算 RnmS， 使 用 规则 
I(a,b,c) 人 R(a,b,c) AND S(a,b,c) 


最 后 ， 规 则 


D(a,b,c) t+- R(a,b,c) AND NOT S(a,b,c) 
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计算 差 R-5。 口 


变量 对 于 规则 是 局 部 的 
注意 ， 在 规则 中 的 变量 名 是 任意 选择 的 ， 与 其 他 规则 中 使 用 的 变量 无 关 。 无 关 的 原因 
是 ， 每 条 规则 都 是 独立 计算 ， 并 且 向 其 头 部 关系 提供 元 组 ， 而 与 其 他 规则 无 关 。 例 如 ， 将 
例 5.24 中 的 第 二 条 规则 替换 成 


U(a,b,c)—Ss(a,b,c) 


而 同时 第 一 条 规则 保持 未 变 ， 这 两 条 规则 仍 是 计算 R 和 S 的 并 。 但 需 注 意 的 是 ， 如 果 在 一 条 
规则 中 用 一 个 变量 a 代替 另 一 个 变量 bp， 则 必须 在 该 规则 中 用 a 蔡 换 所 有 出 现 的 bp。 而且， 所 
选择 的 替换 变量 不 可 以 是 该 规则 中 已 经 出 现 的 变量 。 





5.4.2 投影 

为 了 计算 关系 R 的 投影 ， 我 们 使 用 只 有 一 条 谓词 R 的 单子 目标 的 规则 。 该 子 目 标的 参数 是 
不 同 的 变量 ， 每 个 代表 关系 的 一 个 属性 。 规 则 头 部 有 一 个 原子 ， 其 参数 按照 期 望 顺序 对 应 于 
投影 列表 的 属性 。 

例 5.25 假设 要 将 关系 

Movies(title, year, length, genre, studioName, producerC#) 
投影 到 它 的 前 三 个 属性 title、year 和 1length 上 。 规 则 

P(t,y,1) 全 Movies(t,y,l1,g,s,Pp) 


可 以 满足 要 求 ， 它 定义 了 一 个 名 为 P 的 关系 作为 投影 的 结果 。 口 


5.4.3 选择 

用 Datalog 来 表示 选择 略微 有 些 困 难 。 当 选择 条 件 是 对 一 个 或 多 个 算术 比较 来 作 AND 操 作 
时 ， 则 是 一 个 比较 简单 的 情况 。 在 这 种 情况 下 ， 创 建 的 规则 包含 ， 

1. 一 个 对 应 于 要 进行 选择 的 关系 的 子 目 标 。 这 个 原子 对 每 个 分 量 有 不 同 变量 ， 它 们 分 别 
对 应 于 关系 的 每 个 属性 。 

2. 对 选择 条 件 中 的 每 个 比较 都 有 一 个 与 该 比较 对 应 的 算术 子 目 标 。 而 且 ， 一 旦 在 选择 条 
件 中 使 用 了 一 个 属性 名 ， 就 根据 关系 子 目标 建立 的 对 应 关系 在 算术 子 目标 中 使 用 对 应 的 变量 。 

例 5.26 选择 

Olength>100 AND studioName=’Fox’ (Movies) 

可 以 用 Datalog 规 则 重 写 为 

SGt,y,1,g,s,p) 人 Movies(t,y,1,g,s,P) AND 1 > 100 AND s = "Fox' 
其 结果 就 是 关系 9。 注 意 / 和 :是 依照 Movies 关 系 属性 的 次 序 对 应 到 属性 1ength 和 studioName。 口 

现在 ， 考 虑 包含 对 条 件 进行 0R 操 作 的 选择 。 这 里 不 能 用 一 条 Datalog 规 则 代替 这 样 的 选择 。 
然而 ， 两 个 条 件 OR 操 作 的 选择 近似 于 分 别 按 每 个 条 件 进行 选择 ， 然 后 得 到 结果 的 并 。 因 此 ,nn 
个 条 件 的 0R 可 以 用 n 条 规则 表示 ， 每 条 规则 都 定义 同样 的 头 部 谓词 。 第 ;条 规则 按照 x 个 条 件 中 
的 第 i 个 进行 选择 。 

例 5.27 对 例 5.26 中 的 选择 进行 修改 ， 把 AND 替 换 成 0R 得 到 如 下 选择 : 


alength>100 OR studioName=’Fox’ (Movies) 


也 就 是 找 出 所 有 长 电影 或 Fox 出 品 的 电影 。 可 以 写 两 条 规则 ， 每 个 对 应 下 列 条 件 之 一 : 
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1. S(t,y,1,g,s,P) 人 Movies(t,y,1,g,s,p) AND 1 > 100 
2. S(t,y,1,g,s,p) 人 Movies(t,y,1,g,s,p) AND s = ’Fox’ 


规则 (1) 得 出 至 少 有 100 分 钟 长 的 电影 ， 规 则 (2) 得 到 Fox 出 品 的 电影 。 口 
对 于 更 为 复杂 的 选择 条 件 ， 可 以 由 逻辑 算 子 AND、0R 和 N0T 按 照 任意 顺序 组 成 。 然 而 有 一 

种 被 普遍 了 解 的 技术 ， 可 以 将 这 样 的 逻辑 表达 式 重 新 整理 成 “ 析 取 范式 ”， 即 表达 式 是 “ 合 

取 ” 的 析 取 (0R)。 合 取 (conjunct) 是 “文字 ”的 AND ， 而 文字 (literals) 是 一 个 比较 或 否定 

比较 2。 

可 以 用 一 个 子 目 标 表示 任 一 文字 ， 这 个 子 目 标的 前 面 可 能 有 一 个 NOT。 如 果子 目标 是 算 
术 子 目标 ， 则 NOT 可 以 合并 到 比较 算 子 中 。 例 如 : NOT x> 100 可 以 写作 x<100。 于 是 ， 任 意 
合 取 都 可 以 由 一 条 单独 的 Datalog 规 则 表示 ， 一 个 子 目标 对 应 一 个 比较 。 最 后 ， 每 个 析 取 范 
式 都 可 写成 若干 Datalog 规 则 ， 一 条 规则 对 应 一 个 合 取 。 这 些 规则 对 每 个 合 取 的 结果 作 并 操 
作 或 OR 操作 。 

例 5.28 根据 例 5.27 为 这 个 算法 给 出 一 个 简单 的 例子 。 对 该 例子 中 的 条 件 进 行 否定 就 得 到 
一 个 更 难 的 例子 。 下 面 给 出 表达 式 : 

ONOT (length>100 OR studioName=’Fox’)(Movies) 

也 就 是 说 ,: 找 出 所 有 既 不 长 又 不 是 Fox 出 品 的 电影 。 

这 里 ，N0T 被 放 在 一 个 不 是 简单 比较 的 表达 式 之 前 。 因 此 ， 依 照 DeMorgan 定 律 
(DeMorgan laws)， 即 0R 的 否定 也 就 是 否定 的 AND， 把 NOT 合 并 到 表达 式 中 。 也 就 是 说 ， 这 个 选 
择 可 以 被 重 写成 ; 

O(NOT (tength>100)) AND (NOT (studioName=’Fox’))(Movies) 
现在 可 以 把 NOT 放 在 比较 中 得 到 表达 式 : 
Olength<100 AND studioName#’Fox’ (Movies) 

该 表达 式 转化 为 Datalog 规 则 是 : 口 
例 5.29 考虑 一 个 与 上 例 相似 的 、 选 择 中 有 AND 的 否定 的 例子 。 现 在 ， 使 用 DeMorgan 定 律 
S(t,y,1,EgE,s,p) 人 Movies(t,y,1,g,s,p) AND 1 < 100 AND s  ’Fox’ 

的 第 二 形式 ， 即 AND 的 否定 也 就 是 否定 的 0R。 从 代数 表达 式 

ONOT (1ength>100 AND studioName=’Fox’)(Movies) 

开始 ， 也 就 是 找 出 所 有 不 是 同时 满足 Fox 出 品 且 放映 时 间 长 的 电影 。 

用 DeMorgan 定 律 把 NOT 放 到 AND 下 ， 得 到 : 

O(NOT (length>100)) OR (NOT (studioName=’Fox’))(Movies) 

再 一 次 把 NOT 放 在 比较 中 得 到 : 

Olength<100 OR studioName#’Fox’ (Movies) 


写 两 条 规则 ， 分 别 对 应 OR 的 两 个 部 分 。 这 样 结果 Datalog 规 则 是 : 


.SCt,y,1,g,s,p) t- Movies(t,y,1,g,s,p) AND 1 < 100 
. S(t,y,l1,g,3,p) 人 Movies(t,y,1,g,s,p) AND s 天 ’Fox’ 口 


最 后 


- 


A pz 


5.4.4 积 
两 个 关系 的 积 R x 5 可 以 用 一 条 Datalog 规 则 表示 。 这 条 规则 有 两 个 子 和 目标 ， 一 个 对 应 R， 
一 个 对 应 5。 这 两 个 子 目 标 有 不 同 的 变量 ， 分 别 对 应 R 和 5 的 属性 。 头 部 的 IDB 谓 词 拥有 所 有 在 


日 可 参考 A.V.Aho and J.D,Ullman, Foundations of Computer Science, Computer Science Press, New York, 1992, 
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这 两 个 子 目标 中 出 现 的 参数 ，R 子 目标 中 的 变量 列 在 5 子 目标 中 变量 的 前 面 。 

例 5.30 考虑 例 5.24 中 的 两 个 三 属性 的 关系 R 和 5S， 规 则 

Pla,b,c,x,y,2) t~ R(a,b,c) AND S(x,y,2z) 
定义 了 P 为 Rx S$。 任 意 使 用 字母 表 中 前 面 的 字母 作为 R 的 变量 ， 而 最 后 的 字母 作为 5 的 变量 。 
这 些 变量 都 出 现在 规则 头 部 。 口 


5.4.5 连接 

可 以 用 一 条 近似 于 积 的 Datalog 规 则 来 表示 两 个 关系 的 自然 连接 。 不 同 之 处 在 于 ;如果 想 
要 得 到 Rm 5， 则 R 和 5 的 同名 属性 就 要 使 用 同样 的 变量 ， 否 则 使 用 不 同 的 变量 。 例 如 ， 可 以 用 
属性 名 来 作为 变量 名 。 规 则 头 部 是 一 个 IDB 谓 词 ， 它 的 每 个 变量 出 现 一 次 。 

例 5.31 考虑 模式 为 R(A, B) 和 5S(B,C,DD) 的 关系 ， 其 自然 连接 可 以 由 规则 

J(a,b,c,d) t- R(a,b) AND S(b,c,d) 
来 定义 。 注 意 子 目标 中 使 用 的 变量 很 明显 地 对 应 于 关系 R 和 3 的 属性 。 口 

还 可 以 把 9 连接 转换 成 Datalog。 回 忆 一 下 ，2.4.12 节 中 给 出 的 9 连接 能 用 一 个 积 后 接 一 个 
选择 操作 表示 。 如 果 选 择 条 件 是 合 取 ， 也 就 是 比较 的 AND ， 那 么 可 以 简单 地 从 积 的 Datalog 规 
则 开始 ， 再 添加 对 应 于 每 个 比较 的 算术 子 目 标 。 

例 5.32 考虑 关系 U(A, B,C) 和 V(B, C, D)， 其 9 连接 


U ba 4<D AND UBzv.gV 


可 以 建立 Datalog 规 则 : 

J(a,ub,uc,vb,ve,d) + U(a,ub,uc) AND V(vb,vc,d) ANDa < da AND ub 尖 vb 
来 进行 同样 的 操作 。 尽 管用 任意 六 个 不 同 的 变量 都 可 以 表示 这 两 个 关系 的 六 个 属性 ， 但 这 里 
使 用 ub 作为 对 应 UV 的 8 属性 的 变量 ， 类 似 地 ， 还 使 用 了 vbp、uc 和 vc。 前 两 个 子 目标 引入 了 这 两 
个 关系 ， 后 面 两 个 子 目 标 则 执行 6 连接 条 件 中 出 现 的 两 个 比较 。 口 

如 果 6 和 连接 的 条 件 不 是 合 取 ， 那 么 可 以 像 5.4.3 节 中 那样 把 它 转化 成 析 取 范式 。 然 后 为 每 个 
合 取 建 立 一 条 规则 。 在 该 规则 中 ， 从 积 的 子 目标 开始 ， 为 合 取 中 每 个 文字 添加 一 个 子 目标 。 
所 有 规则 的 头 部 是 一 样 的， 并 且 每 个 参数 对 应 于 进行 6 连接 的 两 个 关系 的 每 个 属性 。 

例 5.33 ”在 这 个 例子 中 ， 将 对 例 5.32 的 代数 表达 式 作 一 个 简单 的 修改 。AND 将 被 改 成 0R。 
这 个 表达 式 中 没有 否定 ， 所 以 它 已 是 析 取 范式 。 其 中 有 两 个 合 取 ， 每 个 都 有 一 个 简单 文字 。 
这 个 表达 式 为 : 

U bd acp OR UBEY 

使 用 与 例 5.32 中 同样 的 变量 命名 方法 ， 得 到 两 条 规则 : 

1. J(a,ub,uc,vb,vc,d) +- U(a,ub,uc) AND V(vb,vc,d) AND a<d 

2. J(a,ub,uc,vb,ve,d) 全 U(a,ub,uc) AND V(vb,vc,d) AND ub 尖 vb 
每 条 规则 都 有 对 应 于 两 个 关系 的 子 目标 以 及 一 个 对 应 于 A<D 和 U. B 去 V. B 两 个 条 件 之 一 的 子 
目标 。 口 


5.4.6 用 Datalog 模 拟 多 重 操作 

Datalog 规 则 不 仅仅 可 以 模拟 关系 代数 中 的 单个 操作 。 事 实 上 可 以 模拟 任何 代数 表达 式 。 
其 技巧 是 观察 关系 代数 表达 式 的 表达 树 ， 并 对 树 的 每 个 内 部 节点 创建 一 个 IDB 谓 词 。IDB 谓 词 
的 一 条 或 多 条 规则 就 是 在 对 应 的 树 节 点 上 需要 使 用 的 算 子 。 树 的 扩展 操作 数 ( 即 它们 是 数据 
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库 的 关系 ) 由 对 应 谓词 表示 。 作 为 内 部 节点 的 操作 数 则 由 对 应 的 IDB 谓 词 表 示 。 代 数 表 达 式 的 
结果 就 是 与 表达 树 的 根 关 联 的 谓词 的 关系 。 
例 5.34 考虑 例 2.17 的 代数 表达 式 


Mtitleyyear (Giengtnz100 (Movies) mn gsrudioName=’Fox’ (Movies)) 


T title, year 


NN 
该 代数 表达 树 如 图 2-18 所 示 ， 这 里 重 画 该 图 为 图 5-9。 
该 树 共 有 四 个 内 部 节点 ， 所 以 需要 创建 四 个 IDB 谓 词 。 a be 
每 个 谓词 有 一 条 Datalog 规 则 ， 图 5-10 给 出 了 这 些 规则 。 © Jengith >= 100 © sudioName = FOX ' 


树 中 最 低 的 两 个 内 部 节点 对 EDB 关 系 Movies 执 行 简 
单 的 选择 操作 ， 所 以 可 以 创建 IDB 谓 词 W 和 X 来 表示 这 
些 选择 。 图 5-10 中 的 规则 (10) 和 (2) 描 述 了 这 些 选 择 。 例 
如 ， 规 则 (1) 定 义 W 为 Movies 中 长 度 至 少 为 100 的 元 组 。 图 5-9 表达 树 


Movies Movies 


1. W(t,y,1,g,s,p) 人 Movies(t,y,l1,g,s,p) AND 1 > 100 
2. X(t,y,l1,g,3,p) 人 Movies(t,y,1,g,s,p) AND s = ’Fox’ 


3. Y(t,y,1,g,8,p) 全 W(t,y,l1,g,s,p) AND X(t,y,1,g,s,p) 
4. Answer(t,y) + Y(t,y,l1,g,s,Pp) 





图 5-10 执行 若干 代数 操作 的 Datalog 规 则 


规则 (3) 按 照 5.4.1 节 中 交 的 规则 形式 ， 定 义 谓词 7 为 W 和 X 的 交 。 最 后 ， 规 则 (4) 定 义 结果 为 
7 在 tit1e 和 year 属 性 上 的 投影 。 这 里 使 用 了 5.4.2 节 中 学 过 的 模拟 投影 技术 。 

注意 ， 因 为 Y 是 由 单条 规则 定义 ， 所 以 可 以 替换 图 5-10 规 则 (4) 中 的 7 子 目标 ， 将 它 换 成 规 
则 (3) 中 的 主体 。 接 着 ， 可 以 用 规则 (1) 和 (2) 的 主体 替换 W 和 X 子 目标 。 既 然 在 W 和 X 主 体 中 都 出 
现 Movies 子 目标 ， 就 可 以 消去 一 个 拷贝 。 于 是 ， 结 果 可 以 用 一 个 单独 的 规则 来 定义 : 

Answer(t,y) 人 Movies(t,y,1,g,s,p) AND 1 > 100 AND s = 


5.4.7 Datalog 与 关系 代数 的 比较 

从 5.4.6 节 可 见 ，2.4 节 中 基本 关系 代数 拉 述 的 每 一 个 表达 式 都 可 以 用 Datalog 查 询 表达 。 而 
在 扩展 关系 代数 中 的 操作 ， 如 5.2 节 中 的 分 组 和 聚集 ， 则 不 能 用 本 章 已 介绍 的 Datalaog 表 达 。 
类 似 地 ，Datalog 不 支持 包 操作 ， 比 如 消 重复 。 

任何 单个 Datalog 规 则 都 可 以 用 关系 代数 表达 。 也 就 是 说 ， 用 基本 关系 代数 表达 的 查询 产 
生 的 元 组 与 这 个 Datalog 规 则 产生 的 头 部 关系 元 组 相同 。 

可 是 ， 当 考虑 Datalog 规 则 集合 时 ， 情 况 有 所 变化 。Datalog 可 以 表达 递归 ， 而 关系 代数 不 
可 以 。 其 原因 是 ， 由 于 IDB 谓 词 也 可 以 在 规则 主体 中 出 现 ， 于 是 规则 头 部 的 元 组 就 可 以 反馈 到 
规则 主体 ， 从 而 为 头 部 产生 更 多 的 元 组 。 这 里 并 不 讨论 由 此 带 来 的 更 加 复杂 的 问题 ， 特 别 是 
当 规 则 中 含有 和 否定 子 目 标的 情况 。 但 是 ， 下 面 的 例子 给 出 了 Datalog 中 的 递归 应 用 。 

例 5.35 假定 有 关系 Edge(X, Y)， 表 示 从 节点 X 到 节点 7 下 接 存 在 有 一 条 边 ( 弧 )。 关 系 Path(X, 
表示 从 节点 X 到 节点 Y 存 在 一 条 长 度 至 少 为 1 的 路 径 ， 于 是 ， 可 以 描述 边 的 传递 闭 包 如 下 : 


1. Path(X,Y) 人 Edge(X,Y) 
2. Path(X,Y) + Edge(X,Z) AND Path(Z,Y) 


这 里 规则 (1) 表 示 每 条 边 是 一 条 路 径 。 规 则 (2) 表 示 如 果 存 在 一 条 从 X 到 某 个 节点 Z 的 边 ， 同 时 存 
在 一 条 从 Z 到 7 的 路 径 ， 那 么 也 就 存在 一 条 从 节点 X 到 节点 了 的 路 径 。 如 果 先 使 用 规则 (1)， 再 使 用 
规则 (2)， 那 么 就 得 到 长 度 为 2 的 路 径 。 如 果 再 在 另 一 个 应 用 中 将 已 得 到 的 Path 在 规则 (2) 中 使 用 ， 
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那么 就 得 到 了 长 度 为 3 的 路 径 。 若 再 次 使 用 这 个 Path， 就 可 以 得 到 长 度 为 4 的 路 径 。 如 此 继续 ， 
最 后 ， 就 可 以 找到 所 有 可 能 的 路 径 。 一 个 循环 结束 后 ， 不 能 再 找到 新 的 路 径 时 ， 就 此 终止 。 如 
果 找 不 到 Path(a, 5b) 的 实例 ， 那 么 就 是 说 ， 在 这 个 边关 系 的 图 中 ， 从 节点 a 到 节点 b 不 存在 路 径 。 口 


5.4.8 习题 
习题 5.4.1 设 R(a, b,c)、S (a, b,c) 和 7T (a, b,c) 是 三 个 关系 。 写 出 一 条 或 多 条 Datalog 规 则 ， 分 别 定义 出 
下 列 关系 代数 表达 式 的 结果 : 
a) RUS E 
b) RNS 
c) R—5S 
d) (RUS) 一 了 
le) (R—S) N(R—7) 
f) ma (R) 
lg) map (R) NN Pia.s) (Tc (S)) 
习题 5.4.2 设 R(x,y, z) 为 一 个 关系 。 写 一 条 或 多 条 Datalog 规 则 来 定义 ac(R)， 其 中 C 代 表 下 列 每 个 条 件 : 
a) X=y 
b) x<y AND y<z 
Cc) x<y OR y<z 
d) NOT (x<y OR x>y) 
le) NOT ((x<y OR x>y) AND y<z) 
!f) NOT ((x<y OR x<z) AND y<z) 
习题 5.4.3 设 R(a, b,c)、S(b, c,d) 和 T(d,e) 为 三 个 关系 。 为 每 个 自然 连接 写 一 条 Datalog 规 则 : 
a) RS 
b)$S ™T7T 
c) (Rm 5)mT (注意 : 因为 自然 连接 满足 结合 律 和 交换 律 ， 所 以 这 三 个 关系 的 连接 顺序 是 无 关 的 。) 
习题 5.4.4 。 设 R(x, y, z) 和 SG y, z) 是 两 个 关系 。 写 出 一 条 或 多 条 Datalog 规 则 来 定义 每 个 9 连接 Rm c5， 
这 里 C 是 习题 5.4.2 中 的 条 件 。 对 这 些 条 件 中 的 每 一 个 ， 要 求 把 每 个 算术 比较 解释 为 对 左边 R 的 一 个 属 
性 和 右边 $ 的 一 个 属性 的 比较 。 例 如 : x<y 表 示 Rx<5.y。 
! 习 题 5.4.5 ”Datalog 规 则 也 可 以 转化 为 等 价 的 关系 代数 表达 式 。 虽 然 没 有 讨论 这 样 做 的 方法 ， 但 也 可 以 举 出 
一 些 简单 的 例子 。 对 下 列 每 个 Datalog 规 则 ， 写 出 一 个 关系 代数 表达 式 来 定义 与 该 规则 头 部 相同 的 关系 。 
a) P(x,y) + Q (x,z) AND R(z,y) 
b) P(x,y) + Q(x,z) AND Q(z,y) 
cj) P(x,y) +- Q(x,2) AND R(z,y) AND x <y 


5.5 小 结 


。 基 于 包 的 关系 (Relation as Bag) :在 商用 数据 库 系 统 当中 ， 关 系 实际 上 是 包 ， 也 就 是 在 
关系 中 ， 同 一 个 元 组 允许 重复 出 现 多 次 。 那 些 基于 集合 理论 的 关系 代数 操作 可 以 扩展 到 
包 ， 但 是 其 中 某 些 代数 规则 将 不 再 适用 。 

。 关 系 代数 的 扩展 (Extension to Relational Algebra) :为 了 适合 SQL 查询 语言 的 能 力 ， 需 
要 一 些 传统 关系 代数 中 不 具备 的 算 符 。 关 系 排序 是 一 个 例子 ， 扩 展 的 投影 也 是 ， 它 支持 
在 关系 列 上 进行 计算 。 分 组 、 聚 集 和 外 连接 等 操作 也 都 需要 。 
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* 分 组 和 聚集 (Grouping and Aggregation ) : 聚集 操作 对 关系 的 一 列 加 以 汇总 。 典 型 的 聚 
集 操作 是 求 和 、 求 平均 、 求 最 小 值 和 最 大 值 。 分 组 操作 算 符 允 许 对 某 个 关系 的 元 组 按 着 
它们 在 一 个 或 者 多 个 属性 上 的 值 分 组 ， 然 后 进一步 对 每 个 组 进行 聚集 计算 。 

。 外 连接 (Outerjoin): 两 个 关系 的 外 连接 是 先 执行 这 两 个 关系 的 连接 。 然 后 ， 那 些 悬 浮 
的 元 组 (不 能 跟 任何 元 组 匹配 的 元 组 ) 用 nul 值 补 齐 后 ， 也 加 入 到 结果 当中 。 

。Datalog: 这 种 逻辑 形式 允许 在 关系 模型 上 编写 查询 。 在 Datalog 中 ， 可 以 编写 规则 ， 规 
则 的 头 部 谓词 或 关系 根据 子 目 标 组 成 的 主体 来 定义 。 

。 原 子 (Atom): 规则 头 部 和 子 目标 都 是 原子 ， 原 子 由 一 个 应 用 于 若干 个 参数 (可 选 为 否 
定 ) 的 谓词 组 成 。 谓 词 可 以 表示 关系 或 算术 比较 (例如 <)。 

“IDB 和 EDB 谓 词 (IDB and EDB Predicate) : 某 些 谓词 对 应 于 已 存储 的 关系 ， 被 称 为 
EDB (扩展 数据 库 ) 谓词 或 称 为 关系 。 另 一 种 谓词 称 为 IDB (内 涵 数 据 库 ) 谓词 ， 是 由 
规则 定义 的 。EDB 谓 词 可 以 不 出 现在 规则 头 部 。 

。 安 全 规则 (Safe Rule): 一 般 说 Datalog 规 则 是 安全 的 ， 是 指 规则 中 每 个 变量 都 出 现在 主体 的 一 
些 非 否定 关系 子 目标 中 。 安 全 规则 保证 : 如 果 EDB 关 系 是 有 限 的， 那么 IDB 关 系 也 将 是 有 限 的 。 

。 关 系 代数 和 Datalog (Relational Algebra and Datalog): 所 有 关系 代数 可 以 表示 的 查询 也 
可 以 用 Datalog 表 示 出 来 。 如 果 规 则 是 安全 和 非 递归 的 ， 那 么 它们 定义 与 关系 代数 完全 
一 样 的 查询 集合 。 
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第 6 章 数据 库 语言 SQL 


最 常用 的 关系 数据 库 管理 系统 (DBMS) 通过 一 种 叫做 SQL 〈 有 时 读 作 “sequel ) 的 语言 
对 数据 库 进 行 查询 和 修改 操作 。SQL 即 为 结构 化 查询 语言 (Structured Query Language)。SQL 
的 查询 功能 十 分 接近 在 5.2 节 中 扩展 出 的 关系 代数 。 但 SQL 还 包括 修改 数据 库 的 语句 (如 在 关 
系 中 插入 和 删除 元 组 ) 和 定义 数据 库 模式 的 语句 。 因 此 ，SQL 既 是 数据 操作 语言 ， 又 是 数据 定 
义 语 言 。 除 此 之 外 ，SQL 还 包括 许多 其 他 标准 的 数据 库 命令 ， 这 些 将 在 第 7 章 和 第 9 章 介绍 。 

SQL 有 许多 不 同 的 版 本 。 首 先 ， 存 在 着 三 个 主要 的 标准 ， 即 ANSI (美国 国家 标准 机 构 ) 
SQL， 在 1992 年 采纳 的 对 ANSI SQL 进行 修改 的 标准 ， 称 为 SQL-92 或 SQL2， 最 近 的 SQL-99 (以 前 
也 称 为 SQL3) 标准 。SQL-99 对 SQL2 进 行 扩充 ， 引 入 了 对 象 关系 特征 和 许多 其 他 的 新 功能 。 还 有 
一 些 对 SQL-99 的 扩展 ， 统 称 为 SQL:2003。 甚 次 ， 各 大 数据 库 厂商 提供 不 同 版 本 的 SQL。 这 些 版 本 
的 SQL 都 包括 最 初 的 ANSI 标准 的 功能 。 它 们 还 在 很 大 程度 上 支持 新 推出 的 SQL-92 标 准 ， 不 过 它 
们 均 在 SQL2 的 基础 上 各 自 做 了 修改 和 扩展 。 另 外 ， 它 们 还 包含 了 部 分 SQL-99 和 SQL:2003 的 标准 。 

本 章 介 绍 SQL 的 基础 : 查询 语言 和 数据 库 修改 语句 。 同 时 还 要 介绍 数据 库 系 统 的 基本 工 
作 单位 一 “事务 ”的 概念 。 这 些 内 容 虽 然 比较 粗略 ， 但 也 能 让 读者 对 数据 库 操作 的 互相 影 
响 及 其 引起 的 问题 有 一 个 初步 的 认识 。 

下 一 章 讨 论 约束 和 触发 器 ， 它 们 是 对 数据 库 的 内 容 施 加 用 户 控制 的 另 一 种 方式 。 第 8 章 讲 
述 提高 SQL 查询 效率 的 方法 ， 主 要 是 采用 索引 及 相关 的 数据 结构 。 第 9 章 讲 述 整 个 系统 中 与 数 
据 库 相关 的 编程 技术 。 例 如 ， 和 常见 的 Web 上 的 访问 服务 。 在 整个 系统 中 ，SQL 查 询 和 其 他 操作 
几乎 从 不 独立 执行 ， 一 般 都 是 戏 入 在 常用 的 主语 言 中 ， 与 系统 交互 式 运 行 。 

最 后 ， 第 10 章 介绍 了 许多 高 级 数据 库 编 程 概念 ， 包 括 递归 SQL、SQL 中 的 安全 和 访问 控 
制 、 对 象 关系 SQL 和 数据 的 数据 立方 模型 。 

本 章 和 接 下 来 儿 章 的 目的 是 让 读者 对 SQL 有 一 个 初步 的 了 解 ， 属 于 简单 的 入门 教程 ， 而 
不 是 内 容 详 尽 的 手册 。 因 此 ， 所 讲解 的 主要 内 容 仅 仅 集中 在 最 常用 的 部 分 上 ， 采 用 的 代码 不 
仅 符合 标准 ， 而 且 与 商用 数据 库 管理 系统 的 用 法 一 致 。 至 于 语言 细节 和 不 同 版 本 的 语言 差异 
方面 的 更 多 内 容 ， 可 参阅 参考 文献 。 


6.1 SQL 中 的 简单 查询 


SQL 中 最 简单 的 查询 是 找 出 关系 中 满足 特定 条 件 的 元 组 ， 这 种 查询 和 关系 代数 中 的 选择 
操作 类 似 。 和 几乎 所 有 的 SQL 查询 类 似 ， 简 单 查询 使 用 代表 SQL 特点 的 三 个 保留 字 SELECT、 
FROM 和 WMHERE 来 表示 。 


Movies(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 
MovieStar (name, address, gender, birthdate) 


MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) 





图 6-1 和 前 面 重复 的 数据 库 模 式 例子 
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例 6.1 在 本 例 和 后 续 的 几 个 例子 中 ， 使 用 2.2.8 节 的 电影 数据 库 模式 。 图 6-1 再 次 给 出 了 这 
些 关系 模式 以 供 参考 。 

第 一 个 查询 是 从 关系 

Movies(title, year, length, genre, studioName, producerC#) 
中 找 出 由 Disney 电 影 公 司 在 1990 年 制作 的 电影 ， 其 SQL 语句 为 


SELECT * 
FROM Movies 
WHERE studioName = ’Disney’ AND year = 1990; 


该 查询 展示 了 大 部 分 SQL 查询 语句 的 典型 格式 ， 即 select-from-where 形式 。 
如 何 使 用 SQL 


本 章 假 设 有 一 个 基本 查询 界面 (generic query interface) ， 该 界面 可 以 输入 SQL 查询 或 
者 其 他 语句 并 使 其 运行 。 但 在 实际 应 用 中 ， 很 少 使 用 基本 查询 界面 。 大 量程 序 是 用 C 或 Java 


等 常规 语言 ( 称 为 主语 言 一 一 host language) 编写 ， 这 些 程 序 使 用 主语 言 的 一 个 特定 的 库 
函数 将 SQL 语句 提交 给 数据 库 。 数 据 从 主语 言 变量 传 到 SQL 语句 ， 这 些 语句 的 结果 又 从 数 
据 库 传 到 主语 言 变量 。 第 9 章 将 深入 探讨 这 一 问题 。 





*FROM 子 句 给 出 查询 所 引用 的 关系 ， 在 本 例 中 查询 引用 的 关系 是 Movies 。 

*。WNHERE 子 句 是 一 个 条 件 子 句 ， 就 像 关 系 代数 中 的 选择 条 件 。 和 查询 匹配 的 元 组 必须 满足 

此 条 件 。 在 本 例 中 ， 条 件 是 元 组 的 studioName 属 性 ( 值 为 “Disney ) 和 year 属 性 ( 值 

为 1990) 。 满 足 这 两 个 约束 的 元 组 符合 条 件 ， 否 则 不 符合 条 件 。 

。SELECT 子 句 决 定 满 足 条 件 元 组 的 哪些 属性 应 该 在 结果 中 列 出 。 例 子 中 的 * 表 示 列 出 元 组 

的 所 有 属性 。 查 询 结果 就 是 处 理 后 的 元 组 所 形成 的 关系 。 

解释 查询 的 一 种 方法 是 逐个 考虑 FROM 子 句 中 涉及 的 关系 元 组 。 将 WHERE 子 句 的 条 件 应 用 到 
元 组 上 。 更 准确 地 说 ， 所 有 在 NHERE 子 句 里 出 现 的 属性 由 元 组 中 对 应 属性 的 值 来 代替 ， 如 果 计 
算 的 表达 式 为 真 ， 则 在 SELECT 中 指定 的 属性 值 作 为 结果 中 的 一 个 元 组 。 这 样 ， 查 询 的 结果 就 
是 Movies 元 组 中 那些 由 Disney 在 1990 年 制作 的 电影 ， 例 如 Pretty Woman。 

更 详细 地 说 ， 当 SQL 查询 处 理 器 碰 到 Movies 里 的 如 下 元 组 


title year | length | genre | studioName | producerC# 
romance 1990 | 119 true | Disney 999 


(这 里 ，999 是 一 个 虚构 的 电影 制 片 人 的 证 书号 ) ， 将 WHERE 子 句 条 件 中 的 studioName 换 成 值 
Disney” ，year 换 成 值 1990， 因 为 这 是 条 件 中 的 那些 属性 的 值 。 于 是 WHERE 子 句 变 成 了 


WHERE Disney” = ’Disney’ AND 1990 = 1990 
显然 该 条 件 为 真 ， 这 样 Pretty Woman 通 过 了 WHERE 子 句 的 检查 并 成 为 查询 结果 的 一 部 分 。 口 
阅读 和 书写 查询 语句 的 小 技巧 
检查 一 个 selcet-from-where 查 询 的 最 简单 的 方式 是 ， 首 先 查 看 FROM 子 句 ， 找 出 该 查询 涉 


及 了 哪些 关系 。 接 着 查看 MHERE 子 句 ， 了 解 要 找 出 的 是 什么 样 的 元 组 ， 它 对 查询 很 重要 。 最 
后 再 看 SELECT 子 句 来 了 解 输 出 结果 是 哪些 。 同 样 地 ， 在 写 查询 语句 的 时 候 也 要 遵照 同样 的 
顺序 ， 即 先 FROM 再 WHERE 最 后 SELECT。 这 样 做 对 理解 语 名 非常 有 用 。 
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6.1.1 SQL 中 的 投影 

如 果 需 要 ， 可 以 减少 选 定 的 元 组 的 字段 ， 即 将 SQL 查询 中 产生 的 关系 投影 到 它 的 一 些 属 
性 上 去 。 在 SELECT 子 句 中 * 所 在 的 位 置 上 ， 如 果 列 出 的 是 FROM 子 句 中 涉及 的 关系 的 部 分 属性 ， 
那么 结果 将 被 投影 到 所 列 出 的 属性 之 上 s 。 

例 6.2 修改 例 6.1 的 查询 ， 仅 仅 输出 电影 的 标题 和 长 度 。 其 SQL 语句 是 

SELECT title, length 

FROM Movies 

WHERE studioName = ’Disney’ AND year = 1990; 
该 结果 是 一 个 两 列 的 表 ， 两 个 列 的 标题 分 别 为 tit1e 和 1ength。 表 中 元 组 的 列 是 成 对 的 ， 每 个 
元 组 包括 电影 的 标题 和 长 度 ， 每 部 电影 由 Disney 在 1990 年 制作 。 该 关系 模式 和 它 的 一 个 元 组 
如 下 所 示 : 


title | length 
Pretty Woman | 119 
有 时 人 们 希望 结果 关系 的 列 标题 和 FROM 子 句 中 给 出 的 关系 的 属性 有 不 同 的 名 字 。 这 可 
以 通过 在 属性 后 面 跟 一 个 AS 保留 字 和 一 个 别名 完成 ， 该 别名 成 为 结果 关系 的 列 标题 。 保 留 字 
As 是 可 选 的 ， 即 别名 可 以 直接 跟 在 它 所 代表 的 表达 式 之 后 ， 而 不 必 在 两 者 间 播 和 人 任何 标记 。 
例 6.3 修改 例 6.2， 产 生 一 个 关系 ， 用 属性 name 和 duration 赫 换 title 和 1ength。 
SELECT title AS name, length AS duration 


FROM Movies 
WHERE studioName = :Disney” AND year = 1990; 


其 结果 与 例 6.2 中 的 元 组 集 相 同 ， 但 是 列 标题 变 成 了 name 和 duration。 结 果 关 系 如 下 所 示 : 
name | duration 
en 
让 i 口 
SELECT 子 句 的 另 一 种 选项 是 用 表达 式 取代 属性 。 换 名 话说 ，SELECT 列 表 的 功能 与 5.2.5 
节 中 扩展 投影 中 的 列表 一 样 。 在 6.4 节 还 可 以 看 到 SELECT 列表 中 包含 5.2.4 节 中 讲 到 的 /操作 符 
的 聚集 操作 。 
例 6.4 ”假定 需要 例 6.3 的 输出 ， 但 是 要 把 长 度 由 分 钟表 示 改 为 以 小 时 表示 。 于 是 ， 可 以 把 
该 例 的 SELECT 子 句 改 为 
SELECT title AS name, length*0.016667 AS lengthInHours 
该 查询 的 电影 结果 与 前 例 查 询 相 同 ， 但 是 它 的 长 度 是 以 小 时 计算 ， 第 二 列 对 应 的 标题 改名 为 
lengthInHours， 如 下 所 示 : 


name | lengthInHours 
Pretty Woman | 1.98334 
ss a 口 
例 6.5 人们 甚至 可 以 将 一 个 常量 作为 表达 式 在 SELECT 子 句 中 列 出 。 这 样 做 似乎 没有 什么 
意义 ， 但 有 些 应 用 需要 输出 一 些 有 意义 的 词语 到 SQL 的 显示 结果 中 去 。 下 面 的 查询 


号 因此 ，SQL 中 的 SELECT 保留 字 实 际 上 和 关系 代数 中 的 投影 运算 符 对 应 ， 而 关系 代数 中 选择 运算 符 则 对 应 于 
SQL 查询 中 的 WHERE 子 句 。 
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SELECT title, length*0.016667 AS length, ’hrs.’ AS inHours 
FROM Movies 
WHERE studioName = ’Disney’ AND year = 1990; 


产生 的 元 组 如 下 : 
title length inHours 


Pretty Woman | 1.98334 | hrs. 
这 里 将 第 三 列 命名 为 inHours， 使 得 它 和 第 二 列 的 标题 在 意义 上 关联 。 输 出 结果 中 的 每 一 个 元 
组 在 第 三 列 包含 常量 hrs， 这 样 看 起 来 好 像 它 是 表示 第 二 列 值 的 计量 单位 。 口 


6.1.2 SQL 中 的 选择 
关系 代数 中 的 选择 操作 符 在 SQL 中 是 通过 SQL 的 WHERE 子 名 表示 。WHERE 子 名 中 的 表达 式 
(包括 条 件 表达 式 ) 和 普通 的 计算 机 语言 (如 C 和 Java) 中 的 表达 式 类 似 。 





不 区 分 大 小 写 
SQL 是 大 小 写 无 关 的 ; 它 把 大 写 和 小 写字 母 看 作 相 同 的 字母 。 举 个 例子 ， 对 于 保留 字 


FROM， 无 论 写 作 FROM、From 或 者 from 甚 至 Fr0m 都 是 正确 的 。 关 系 名 、 属 性 名 和 别名 都 同样 
是 大 小 写 无 关 的 。 只 有 引号 里 面 的 字符 才 是 区 分 大 小 写 的 。 所 以 “FROM” 和 “from' 是 不 
同 的 字符 串 。 当 然 ， 它 们 都 不 是 保留 字 FRONM。 


可 以 通过 值 比较 运算 来 建立 表达 式 ， 比 较 运算 使 用 六 个 常用 的 比较 运算 符 ; =、<>、<、 
>、<= 和 >=。 最 后 四 个 运算 符 与 C 语 言 中 的 相同 ， 而 <> 在 SQL 中 表示 “不 等 于 ”( 在 C 语 言 
是 !=)，= 在 SQL 中 表示 “等 于 ”( 在 C 语 言 中 是 ==)。 


SQL 查 询 和 关系 代数 


到 目前 为 止 所 看 到 的 简单 的 SQL 查 询 都 具有 以 下 形式 . 


SELECT L 
FROM RR 
WHERE C 





其 中 是 一 个 表达 式 列表 ，R 是 一 个 关系 ，C 是 一 个 条 件 。 这 种 表达 式 和 如 下 形式 的 关系 代 
数 表 达 式 的 意义 相同 . 


mt. (Oc(R)) 


即 首先 对 FROM 子 名 关系 中 的 每 个 元 组 使 用 WHERE 子 句 中 指定 的 条 件 进行 第 选 ， 然 后 投影 到 
SELECT 子 句 中 的 属性 或 表达 式 列 表 上 。 


常量 以 及 跟 在 FORM 后 面 的 关系 的 属性 都 可 以 比较 。 在 进行 比较 之 前 也 可 以 使 用 普通 的 算 
术 运 算 符 如 +、* 等 等 作用 于 数值 上 。 例 如 (year 一 1930)*(year 一 1930)<100 对 于 那些 和 1930 之 
间 的 差别 小 于 等 于 9 的 年 份 的 值 为 真 。 也 可 以 通过 ll 连接 运算 符 对 字符 串 作 连 接 运 算 。 例 如 
‘foo”|| “bar” 的 运算 结果 为 “foobar’。 

例 6.1 中 提 到 的 一 个 比较 运算 

studioName = ’Disney’ 
将 判断 关系 Movies 的 studioName 属 性 是 否 与 常量 “Disney” 相 等 。 这 是 一 个 字符 串 常量 ,在 
SOL 中 ， 字 符 串 常量 是 由 单 引 号 括 起 的 字符 串 表 示 。 数 值 常量 ， 如 整数 和 实数 ， 都 可 以 作为 
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常量 。SQL 使 用 普通 的 记 数 法 表示 实数 ， 如 一 12 .34 或 1.23E45。 

比较 运算 的 结果 是 一 个 布尔 值 : 要 么 TRUE 要 么 FALSES 。 布 尔 值 可 以 通过 逻辑 运算 符 AND、 
0R 和 N0T 来 进行 组 合 ， 分 别 为 并 、 或 和 非 运 算 。 例 如 ， 在 例 6.1 中 已 经 看 到 使 用 AND 运 算 符 来 组 
合 两 个 比较 表达 式 。 该 例 的 WHERE 子 句 为 真 ， 当 且 仅 当 两 个 比较 都 为 真 ， 即 当 电 影 公司 名 称 为 
“ Disney ， 并 且 制 作 年 份 是 1990 时 整个 WHERE 子 句 为 真 。 下 面 再 看 一 些 包含 复杂 WHERE 子 句 的 
查询 语句 。 

例 6.6 考虑 查询 _ 

SELECT title 

FROM Movies 

WHERE (year > 1970 OR length < 90) AND studioName = ’MGM’; 
这 个 查询 要 找 出 由 MGM 电 影 公 司 制作 的 影片 名 称 ， 它 们 要 么 在 1970 以 后 制作 要 么 影片 长 度 小 
于 90 分 钟 。 注 意 ， 比 较 表 达 式 可 以 用 括号 括 起 来 。 这 里 使 用 括号 是 因为 逻辑 运算 符 优先 级 的 
原因 。 在 SQL 中 逻辑 运算 符 的 优先 级 和 其 他 高 级 语言 相同 : AND 的 优先 级 高 于 OR，N0T 具 有 最 
高 优先 级 。 口 


6.1.3 字符 串 比 较 

当 两 个 字符 串 里 的 字符 序列 完全 相同 时 称 两 个 字符 串 相等 。 回 顾 一 下 2.3.2 节 的 内 容 ， 字 
符 串 可 以 用 CHAR 存 成 定 长 字符 串 ， 也 可 以 用 VARCHAR 存 成 变 长 字符 串 。 当 比较 不 同类 型 的 
字符 串 时 ， 只 比较 实际 的 字符 串 ，SQL 忽 略 任何 为 了 保证 字符 串 所 需 长 度 而 在 数据 库 中 采用 
的 填充 字符 。 

当 使 用 如 < 或 >= 等 比较 运算 符 对 字符 串 作 比 较 运 算 时 ， 实 际 上 比较 的 是 它们 的 词典 顺序 
(如 字典 顺序 或 字母 表 顺 序 )。 也 就 是 说 ， 如 果 al as… an 和 b1b;… bn 是 两 个 字符 串 ， 当 a1<bi 时 ， 
或 者 ai = bi 且 a2<by 时 ， 或 者 41 = bl，a2= by 和 且 as<b; 时 ， 如 此 下 去 ， 则 前 者 小 于 后 者 。 如 果 n<m 
并 且 a oa … an= bib，… b,， 则 称 字符 串 aia2 … an<bib，… bm， 也 就 是 说 第 一 个 字符 串 正 好 是 
第 二 个 字符 串 的 一 个 前 级。 例如 ，'“fodder”< “foo’ ， 因 为 每 个 字符 串 的 头 两 个 字符 相同 都 
是 fo， 而 fodder 中 的 第 三 个 字符 在 字母 表 中 顺序 是 在 foo 的 第 三 个 字符 之 前 。 同 样 的 ， "bar” 
<“bargin ” ， 因 为 前 者 正好 是 后 者 的 一 个 前 绥 。 


位 串 的 表示 


二 进 制 位 串 是 一 个 以 B 开 头 ， 后 面 跟 着 由 单 引号 括 起 来 的 0 和 1 串 。 例 如 B “011” 表 示 包 
含 三 个 位 的 串 ， 第 一 位 为 0， 其 他 两 位 为 1!。 也 可 以 用 十 六 进 制 表示 ， 即 用 X 打 头 后 面 跟 着 


由 单 引 号 括 起 来 的 十 六 进 制 数字 (0 到 9 及 a 到 f，a 到 /表示 数字 10 到 15)。 例 如 ，X “7ff'” 表 
示 一 个 十 二 位 长 的 位 串 ， 由 一 个 0 和 后 面 的 十 一 个 1 构成 。 注 意 ， 每 一 个 十 六 进 制 数 字 表 示 4 
比特 位 ， 开 头 的 0 不 能 省 去 。 





6.1.4 SQL 中 的 模式 匹配 

SQL 也 提供 了 一 种 简单 的 模式 匹配 功能 用 于 字符 串 比 较 。 比 较 表 达 式 的 另 一 种 方式 是 

8 LIKE P 
其 中 s 是 一 个 字符 串 ，p 是 模式 (pattern)， 即 一 个 可 能 使 用 了 两 个 特殊 字符 %% 和 _ 的 字符 串 。p 
中 普通 字符 仅 能 匹配 s 中 与 其 相同 的 字符 ， 而 % 能 匹配 s 中 任何 任意 长 度 (包括 零 长 度 ) 的 字符 


日 关于 布尔 值 的 一 些 详细 情况 见 6.1.7 节 。 
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串 , p 中 的 _ 则 能 匹配 :中 任何 一 个 字符 。 该 表达 式 的 值 为 真 当 且 仅 当 字符 串 s 匹 配 模式 p。 同 样 ， 
s NOT LIKE p 为 真 时 当 且 仅 当 字符 串 s 不 匹配 模式 p。 

例 6.7 如果 只 记得 某 个 电影 的 片 名 开始 部 分 是 “Star”"， 另 外 知道 记 不 起 来 的 部 分 是 一 个 
四 个 字母 的 单词 。 则 可 以 通过 如 下 查询 找到 电影 的 片 名 : 

SELECT title 


FROM Movies 
WHERE title LIKE ’Star .___’; 


这 个 查询 是 查找 那些 电影 片 名 由 九 个 字符 组 成 ， 开 始 的 五 个 字符 是 Star 加 一 个 空格 。 后 面 四 个 
字符 可 以 是 任意 四 个 字符 ， 因 为 每 一 个 _ 可 以 匹配 任何 一 个 字符 。 查 询 结 果 是 满足 完全 匹配 要 
求 的 电影 片 名 的 集合 ， 如 Star Wars 或 Star Trek。 口 

例 6.8 找 出 所 有 电影 标题 中 含有 所 有 格 's 的 电影 。 查 询 语 句 为 : 

SELECT title 

FROM Movies 

WHERE title LIKE ’%’’s%’; 
要 理解 这 个 模式 ， 需 要 先 理 解 SQL 中 的 单 引 号 。 括 起 字符 串 两 边 的 单 引 号 不 能 代表 字符 串 中 
的 单 引号 。SQL 约 定 ， 字 符 串 中 两 个 连续 的 单 引 号 表示 一 个 单 引 号 ， 而 不 作为 字符 串 的 结束 
符 。 所 以 模式 中 的 ”"s 表 示 一 个 单 引 号 后 面 跟 一 个 s。 

在 's 两 边 的 两 个 % 符 号 可 以 匹配 任何 形式 的 字符 串 。 所 以 只 要 包括 子 串 's 的 字符 串 都 能 匹 
配 该 模式 。 该 查询 结果 包括 如 Long's Run 或 Alice's Restaurtant 等 电影 。 口 


6.1.5 日 期 和 时 间 

SQL 的 实现 版 本 通常 将 时 间 和 日 期 作为 特殊 的 数据 类 型 。 其 值 常常 用 不 同形 式 表示 ， 如 
05/14/1948 或 14 May 1948。 这 里 仅仅 描述 SQL 标准 中 时 间 和 日 期 的 特定 表示 法 。 

日 期 (date) 常量 由 保留 字 DATE 后 跟 一 个 单 引 号 括 起 的 特定 形式 字符 串 组 成 。 例 如 
DATE” 1948-05-14” 是 符合 规范 的 表示 。 前 四 个 数字 字符 表示 年 份 ， 紧 接着 后 面 跟 一 个 连 字 
符号 ， 接 下 来 的 两 个 数字 字符 表示 月 份 。 注 意 ， 如 同 在 给 出 的 例子 中 所 表示 的 那样 ， 单 数字 
的 月 份 前 要 补 上 了 一 个 0。 最 后 是 一 个 连 字符 和 两 个 数字 字符 表示 日 。 和 月 份 的 表示 一 样 ， 必 
须 用 两 位 数字 表示 日 ， 所 以 在 前 面 如 有 必要 需 填充 一 个 0。 

类 似 地 ， 时 间 (time) 常量 由 保留 字 TIME 后 跟 一 个 单 引 号 字符 串 组 成 。 该 字符 串 用 两 个 
字符 表示 小 时 ， 采 用 24 小 时 制 表示 。 接 着 是 一 个 冒号 后 跟 两 个 字符 表示 分 钟 。 接 着 又 是 一 个 
冒号 后 跟 两 个 字符 表示 秒 。 如 果 要 表示 分 秒 ， 则 继续 在 后 面 跟 一 个 小 数 点 和 任意 多 的 数字 字 
符 。 例 如 : TIME”15:00:02.5” 表 示 下 午 3 点 过 两 秒 半 。 


LIKE 表 达 式 中 的 转 义 字符 

如 果 要 在 LIKE 表 达 式 的 模式 中 直接 使 用 % 和 和 _ 字 符 该 怎么 办 呢 ? SQL 没有 采用 特殊 的 党 
符 作为 转 义 字符 (如 UNIX 中 的 反 斜 线 ) ， 对 于 单个 模式 SQL 多 许 使 用 任何 一 个 字符 作为 转 
义 字 符 。 方 法 是 通过 在 模式 后 面 跟 一 个 保留 字 ESCAPE 和 一 个 用 单 引 号 括 起 来 的 字符 指定 转 
义 字 符 。 跟 在 转 义 字符 后 面 的 的 % 和 _ 作 为 其 本 身 所 表示 的 字符 出 现在 模式 字符 串 中 ， 而 不 
表示 匹配 一 个 或 多 个 字符 。 例 如 ， 

s LIKE ’x%x%’ ESCAPE ’x’ 
使 得 x 成 为 模式 x%%x% 中 的 转 义 字符 。 字 囊 x% 表 示 单 个 名。 这 个 模式 匹配 任何 以 字符 % 开 头 
并 同时 以 它 结 尾 的 字符 串 。 注 意 ， 这 里 仅仅 中 间 的 % 能 匹配 “任何 字符 囊 "。 
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作为 一 个 可 选项 ， 可 以 用 格林 威 治 (GMT) 时 间 之 前 (用 一 个 加 号 表示 ) 和 格林 威 治 时 
间 之 后 (用 一 个 减 号 表示 ) 若干 小 时 和 分 钟表 示 时 间 。 例 如 ，TIME”12:00:00-8:00” 表 示 太 
平 洋 标 准时 间 的 正午 ， 正 好 比 格林 威 治 时 间 晚 八 个 小 时 。 

如 果 要 将 日 期 和 时 间 组 合 起 来 就 要 用 到 TIMESTAMP 类 型 。 通 过 关键 字 TIMESTAMP ， 一 个 日 
期 值 后 跟 一 个 空格 和 一 个 时 间 值 来 组 合 表示 。 例 如 ，TIMESTAMP ”1948-05-14 12:00:00” 表 
示 1948 年 5 月 14 号 正午 。 

可 以 使 用 字符 串 和 数值 运算 中 的 比较 运算 符 对 日 期 和 时 间 进 行 比较 运算 。 即 < 对 于 日 期 比 
较 意 味 着 前 一 个 日 期 比 第 二 个 早 ;， < 对 时 间 而 言 也 是 前 者 早 于 后 者 (对 于 同一 天 的 时 间 来 说 )。 


6.1.6 空 值 和 涉及 空 值 的 比较 

SQL 允 许 属性 有 一 个 特殊 值 NULL， 称 作 空 值 (null value) 。 对 于 空 值 有 许多 不 同 的 解释 。 
下 面 是 一 些 最 常见 的 解释 : 

1. 未 知 值 (value unknown): 即 知道 它 有 一 个 值 但 不 知道 是 什么 ， 例 如 一 个 未 知 的 生日 。 

2. 不 适用 的 值 (value inapplicable):“ 任 何 值 在 这 里 都 没有 意义 ”， 例 如 ， 对 于 MovieStar 
关系 ， 如 果 有 一 个 spouse 属 性 表示 其 配偶 。 对 于 一 个 未 婚 的 影星 这 个 属性 可 能 为 NULL 值 ， 不 
是 因为 不 知道 其 配偶 的 名 字 ， 而 是 因为 没有 配偶 。 

3. 保留 的 值 (value withheld) :“ 属 于 某 对 象 但 无 权 知道 的 值 ” 。 例 如 ， 未 公布 的 电话 号 码 
在 phone 属 性 中 显示 为 NULL 值 。 

在 5.2.7 节 中 已 看 到 使 用 外 连接 操作 符 如 何 导 致 某 些 元 组 中 产生 了 空 值 。SQL 人 允许 外 连接 
并 且 在 外 连接 中 产生 空 值 ， 参 见 6.3.8 节 。SQL 还 有 一 些 其 他 的 方式 产生 空 值 ， 例 如 ， 在 6.5.1 
节 中 将 会 看 到 ， 元 组 的 某 些 插入 产生 空 值 。 

在 WHERE 子 句 中 ， 要 考虑 元 组 中 的 空 值 可 能 带 来 的 影响 。 当 对 空 值 进行 运算 时 有 两 个 重要 
的 规则 要 记 住 。 

1. 对 NULL 和 任何 值 (包括 另 一 个 NULL 值 ) 进行 算术 运算 (如 x 和 十 )， 其 结果 仍然 是 空 值 。 

2. 当 使 用 比较 运算 符 ， 如 = 或 >， 比较 NULL 值 和 任意 值 (包括 另 一 个 NULL 值 ) 时 ， 结 果 
都 为 UNKONWN 值 。 值 UNKNOWN 是 另外 一 个 与 TRUE 和 FALSE 相 同 的 布尔 值 。 后 面 将 简介 地 介绍 
UNKNOWMN 值 的 操作 。 

可 是 ， 要 记 住 ， 虽 然 MNULL 也 是 一 个 可 以 出 现在 元 组 中 的 值 ， 但 是 它 不 是 一 个 常量 。 因 此 ， 
虽然 可 以 利用 上 面 的 规则 对 值 为 NULL 的 表达 式 进行 运算 ,但 是 不 可 以 直接 将 NULL 作 为 一 个 操 
作 数 。 

例 6.9 如 果 x 的 值 是 NULL， 那 么 xz + 3 的 值 也 是 NULL, 但 是 NULL + 3 不 是 合法 的 SQL 表达 式 。 
同样 的 ， 表 达 式 x = 3 的 值 是 UNKNOWN， 因 为 x 值 为 NULL， 不 能 确定 x 是 否 等 于 3。 而 比较 表达 式 
NULL=3 是 非法 的 SQL 表达 式 。 口 

正确 判断 x 的 值 是 否 为 NULL 的 方式 是 用 表达 式 x IS NULL 表 示 。 如 果 x 的 值 为 NULL， 那 么 该 
表达 式 为 TRUE， 否 则 为 FALSE。 例 如 ，x IS NOT NULL 值 为 TRUE， 除 非 * 的 值 是 NULL。 


6.1.7 布尔 值 UNKNOWN 

在 6.12 节 中 已 知 ， 比 较 运算 结果 要 么 是 TRUE 要 么 是 FALSE， 并 且 这 两 种 布尔 值 可 以 通过 逻 
辑 运算 符 AND、0R 和 N0T 组 合 在 一 起 。 由 于 上 面 刚 刚 讲 到 的 NULL 值 出 现 ， 比 较 结果 可 能 产生 第 
三 个 布尔 值 ，UNKNOWN。 现 在 必须 知道 逻辑 运算 符 对 于 三 种 布尔 值 进行 运算 的 规则 。 

可 以 用 一 种 简单 的 方式 来 记 住 这 个 规则 。 把 TRUE 看 作 1 (完全 真 )，FALSE 看 作 0 (完全 假 )， 
UNKNOWN 看 作 1/2 ( 即 处 于 真 假 之 间 )。 那 么 : 
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使 用 空 值 的 小 缺陷 
NULL 值 在 SQL 中 通常 表示 “一 个 未 知 的 但 是 的 确 存 在 的 值 "。 然 而 这 样 表示 有 时 和 人 们 
的 直觉 不 符合 。 例 如 ， 假 定 x 是 某 个 元 组 的 一 字段 ， 该 字段 的 域 类 型 是 整 型 。 因 此 可 以 推断 


无 论 整 数 x 的 值 是 什么 ，0*x 的 结果 肯定 是 0。 但 是 如 果 x 的 值 是 NULL， 应 用 6.1.5 节 的 规则 (1)， 
0 和 NULL 的 积 却 是 NULL。 同 样 地 x 一 x 的 值 肯定 是 0， 因 为 一 个 整数 减 去 它 本 身 结果 为 0， 而 应 
用 规则 (1) 再 次 导致 结果 为 NULL。 


1. 两 个 布尔 值 之 间 的 AND 运 算 结 果 取 两 者 之 间 最 小 的 值 。 也 就 是 说 ， 如 果 x 或 ?两 者 之 一 为 
FALSE， 则 x AND > 为 FALSE， 如 果 两 者 都 不 为 FALSE ， 但 是 至 少 有 一 个 是 UNKOWN ， 则 为 
UNKNOWN， 当 二 者 皆 为 TRUE 时 结果 为 TRUE。 

2. 两 个 布尔 值 的 0R 运 算 取 两 者 之 间 较 大 值 。 即 当 两 者 之 一 为 真 ， 则 x OR 7 为 TRUE， 当 两 者 都 
不 为 TRUE， 但 是 至 少 有 一 个 为 UNKNOWN 时 ， 结 果 为 UNKNOWN， 当 两 者 都 为 FALSE 时 ， 结 果 为 FALSE; 

3. 布尔 值 y 的 非 为 1 一 v。 即 当 x 为 FALSE 时 ，NOT x 的 值 为 TRUE ， 当 x 的 值 为 TRUE 时 ， 其 值 为 
FALSE， 当 x 的 值 为 UNKNONN 时 ， 其 结果 仍然 为 ULNKNOWN 。 

图 6-2 是 对 操作 数 x 和 y 赋 予 布尔 值 形成 的 九 种 不 同 组 合 时 三 值 逻辑 运算 的 结果 。 最 后 一 个 
操作 符 NOT 的 计算 结果 仅仅 依赖 于 x。 





TANDYy ZORY NOT z 
FALSE 
FALSE 

FALSE TRUE FALSE 

UNKNOWN TRUE UNKNOWN 


UNKNOWN | UNKNOWN UNKNOWN UNKNOWN 
FALSE FALSE UNKNOWN UNKNOWN 
TRUE FALSE TRUE TRUE 
UNKNOWN | FALSE UNKNOWN TRUE 
FALSE FALSE FALSE TRUE 





图 6-2 三 值 逻辑 真 值 表 


SQL 的 条 件 ， 即 出 现在 select-from-where 语 句 中 的 WHERE 子 句 ， 被 应 用 到 关系 的 每 一 个 
元 组 。 对 于 每 一 个 元 组 ， 条 件 可 以 有 三 种 值 : TURE、FALSE 或 UNKNOWN。 但 是 只 有 条 件 为 TRUE 
时 ， 元 组 才 符 合 要 求 。 而 那些 值 为 FALSE 和 UNKNOWN 的 元 组 则 不 在 查询 结果 之 中 。 这 种 情形 导 
致 了 一 个 类 似 “ 使 用 空 值 的 小 缺陷 ” 框 中 提 到 的 问题 。 下 面 的 例子 说 明 这 一 点 。 

例 6.10 假定 对 关系 

Movies(title, year, length, genre, studioName, producerC#) 
进行 如 下 查询 : 

SELECT * 


FROM Movies 
WHERE length “= 120 OR length > 120; 


直观 地 看 ， 查 询 期 望 返回 关系 Movies 的 所 有 元 组 ， 因 为 电影 的 长 度 要 么 小 于 或 等 于 120， 要 么 
大 于 10， 

但 如 果 该 关系 某 个 元 组 的 1ength 字 段 具 有 NULL 值 ， 那 么 表达 式 1ength<=120 和 表达 式 
length>120 的 结果 都 为 UNKNOWN。 图 6-2 显 示 ， 两 个 UNKOWN 的 0R 运 算 仍然 是 UNKOWN。 这 样 对 于 
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任何 length 字 段 取 值 NULL 的 元 组 ，WHERE 子 名 的 结果 为 UNKNOWN。 从 而 导致 该 元 组 不 出 现在 查 
询 结果 集合 里 面 。 这 样 ， 该 查询 的 真正 意义 变 成 了 “从 关系 Movies 中 找 出 所 有 1ength 字 段 为 
非 空 的 元 组 。 口 


6.1.8 输出 排序 
有 时 需要 对 查询 结果 的 元 组 以 某 种 顺序 表示 。 可 以 基于 任何 一 个 属性 来 排序 ， 并 且 将 其 
他 的 属性 跟 在 它 之 后 进行 约束 。 当 第 一 属性 值 相 同时 ， 将 第 二 个 属性 作为 排序 的 依据 ， 如 此 
类 推 。 类 似 5.2.6 节 中 的 r 操 作 。 为 了 获得 排序 的 输出 结果 ， 在 select-from-where 语 句 后 加 上 如 
下 子 名 用 于 排序 : 
ORDER BY <list of attributes> 
排序 的 默认 序 为 升序 ， 但 也 可 以 通过 给 某 个 属性 加 上 保留 字 DESC (表示 “降序 ”) 按照 其 降序 
排列 。 同 样 可 以 指定 保留 字 ASC 按 升序 排列 ， 但 是 ASC 可 以 省 略 。 
0RDER BY 子 句 位 于 WHERE 子 句 和 任何 其 他 ( 即 可 选 的 GROUP BY 和 HAVIN6 子 句 ， 将 在 6.4 节 
中 介绍 ) 子 名 之后。 排序 是 在 FROM、MWHERE 和 别 的 子 句 的 结果 上 进行 ,排序 之 后 再 应 用 
SELECT 子 句 。 根 据 0RDER BY 子 句 列表 中 的 属性 对 结果 元 组 进行 排序 ， 然 后 按 正常 方式 执行 ， 
将 结果 元 组 传 给 SELECT 子 句 。 
例 6.11 下面 的 例子 是 对 例 6.1 的 查询 进行 重 写 ， 找 出 Disney 在 1990 年 制作 的 电影 ， 该 关 
系 为 
Movies(title, year, length, genre, studioName, producerC#) 
其 结果 按照 电影 的 长 度 排列 ， 短 的 排 在 前 面 。 如 果 两 部 电影 长 度 相 同 ， 则 按 电影 名 的 字典 顺 
序 排列 。 查 询 按 如 下 方式 写 : 
SELECT * 
FROM Movies 
WHERE studioName = ’Disney’ AND year = 1990 
DRDER BY length, title; 
排序 的 一 个 微妙 之 处 是 ， 在 排序 时 ，Movies 的 所 有 属性 都 可 用 ， 即 使 有 些 属性 没有 被 SELECT 
子 名 包含 也 没关系 。 因 此 可 以 用 SELECT producerC# 替 换 SELECT *， 而 该 查询 仍然 有 效 。 口 
与 SELECT 子 名 一样， 排序 的 另 一 个 选项 是 位 于 0RDER BY 后 的 列表 ， 它 可 以 包含 表达 式 。 
例如 ， 根 据 元 组 的 两 个 分 量 之 和 将 关系 R(4, B) 的 元 组 从 大 到 小 排序 ， 语 句 如 下 : 
SELECT * 
FROM R 
ORDER BY A+B DESC; 
6.1.9 习题 
习题 6.1.1 如 果 一 个 查询 的 SELECT 子 句 为 
SELECT A B 
如 何 判断 4 和 8 是 不 同 的 属性 或 8 是 4 的 别名 ? 
习题 6.1.2 根据 给 出 的 电影 数据 库 样 例 用 SQL 语句 写 出 后 面 的 查询 。 
Movies(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 
MovieStar (name, address, gender, birthdate) 


MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) 


a) 找 出 电影 公司 MGM 的 地 址 。 
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b) 找 出 Sandra Bullock 的 生日 。 
c) 找 出 那些 在 1980 年 制作 的 ， 或 者 电影 名 中 包括 “Love” 单 词 的 电影 中 出 现 的 所 有 电影 明星 。 
d) 找 出 所 有 的 净 产 值 (netWorth) 至 少 为 $10 000 000 的 制 片 人 。 
e) 找 出 所 有 的 男性 或 住 在 Malibu (地 址 中 包含 Malibu 字 符 串 ) 的 电影 明星 。 
习题 6.1.3 基于 习题 2.4.1 给 出 的 数据 库 模式 和 数据 写 出 后 面 的 查询 语句 以 及 查询 结果 。 
Product (maker, model, type) 
PC(model, speed, ram, hd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 
a) 找 出 所 有 价格 低 于 $1000 的 个 人 计算 机 的 型 号 、 速 度 和 硬盘 大 小 。 
b) 要 求 同 (a)， 但 要 将 列 speed 重 命名 为 gigahertz， 并 将 列 hd 重 命名 为 gigabytes。 
c) 找 出 所 有 打印 机 制造 厂商 。 
d) 找 出 价格 高 于 $1500 的 笔记 本 电脑 的 型 号 、 内 存 大 小 和 屏幕 尺寸 。 
e) 找 出 关系 Printer 中 所 有 彩色 打印 机 元 组 。 注 意 属性 color 是 一 个 布尔 类 型 。 
f) 找 出 速度 为 3.2 且 价格 低 于 $2000 的 个 人 计算 机 的 型 号 和 硬盘 大 小 。 
习题 6.1.4 基于 习题 2.4.3 给 出 的 数据 库 模 式 和 数据 写 出 后 面 的 查询 语句 以 及 查询 结果 。 
Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 
Battles (name, date) 
Dutcomes(ship, battle, result) 


a) 找 出 至 少 有 10 门 炮 的 军舰 类 别名 和 制造 国家 。 
b) 找 出 在 1918 年 以 前 下 水 的 舰 船 的 名 字 ， 并 且 把 结果 列 名 改 为 ShipName。 
c) 找 出 所 有 在 战斗 中 被 击 沉 的 船只 和 那 次 战斗 的 名 字 。 
d) 找 出 所 有 和 它 的 类 别名 同名 字 的 船只 。 
e) 找 出 所 有 以 “R” 字 符 打头 的 船只 的 名 字 。 
! 站 找 出 所 有 包括 三 个 或 三 个 以 上 单词 的 船只 名 字 (如 King George V ) 。 
习题 6.1.5 ”假定 a 和 b 是 可 能 为 NULL 的 整 型 属性 。 对 于 以 下 的 条 件 〈 可 以 出 现在 WHERE 子 句 中 ) ， 准 确 地 
描述 满足 这 些 条 件 的 (a, b) 元 组 集合 。 包 括 那些 a 和 (或 ) 2 可 能 为 NULL 值 的 元 组 。 
a) a=100Rb= 20 
b) a= 10 ANDb = 20 
Cc) a< 10 0R a >= 10 
!d) as=hb 
Ile) a <=b 
! 习 题 6.1.6 在 例 6.10 中 讨论 的 查询 


SELECT * 
FROM Movies 


WHERE length <= 120 OR length > 120; 
当 某 部 电影 的 长 度 属性 为 空 值 时 ， 该 查询 显得 不 是 很 直观 。 请 写 出 一 个 WHERE 子 句 ， 其 中 只 包括 一 个 
条 件 (条 件 中 不 使 用 AND 和 0R) 的 和 上 面 等 价 的 更 简单 的 查询 。 


6.2 多 关系 查询 
关系 代数 的 强大 主要 在 于 它 能 够 通过 连接 、 第 卡 儿 积 、 并 、 交 和 差 来 组 合 多 个 关系 。 在 SQL 


中 也 可 以 做 相同 的 操作 。 集 合理 论 中 的 操作 (并 、 交 和 差 ) 在 SQL 中 直接 出 现 。 这 些 将 在 6.2.5 节 
中 讨论 。 这 里 首先 学 习 如 何在 SQL 的 select-from-where 句 型 中 进行 关系 的 笛 卡 儿 积 和 连接 运算 。 
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6.2.1 SQL 中 的 积 和 连接 

SQL 用 简单 的 方式 在 一 个 查询 中 处 理 多 个 关系 : 在 FROM 子 句 中 列 出 每 个 关系 ， 然 后 在 
SELECT 子 句 和 WHERE 子 句 中 引用 任何 出 现在 FROM 子 句 中 关系 的 属性 。 

例 6.12 ” 找 出 电影 Star Wars 的 制 片 人 名 字 。 回 答 这 个 问题 至 少 要 使 用 以 前 例子 中 出 现 的 
两 个 关系 : 


Movies(title, year, length, genre, studioName, producerC#) 
MovieExec(name, address, cert#, netWorth) 


制 片 人 的 证 书号 (procucerC#) 在 Movies 关 系 中 给 出 ， 因 此 可 以 对 Movies 做 一 个 简单 查询 取得 
这 个 证 书号 码 。 然 后 对 关系 MovieExec 做 第 二 次 查询 找 出 具有 该 证 书号 的 人 名 。 
不 过 还 有 更 好 的 方法 ， 即 把 这 两 步 合并 成 对 关系 Movies 和 MovieExec 的 一 个 查询 ， 如 下 所 示 : 
SELECT name 


FROM Movies, MovieExec 
WHERE title = ’Star Wars’ AND producerC# = cert#; 


这 个 查询 检查 关系 Movies 和 MovieExec 的 所 有 元 组 对 。 这 一 对 元 组 的 匹配 条 件 在 WHERE 子 句 中 
给 出 : 

1] . 关系 Movies 元 组 的 tit1e 字 段 值 必须 为 “Star Wars'。 

2. 关系 Movies 元 组 的 producerC# 属 性 和 MovieExec 关 系 中 的 cert# 属 性 必须 具有 相同 的 证 
书号 ， 即 这 两 个 元 组 必须 指 的 是 同一 个 电影 制 片 人 。 

当 找 到 符合 上 面 两 个 条 件 的 一 对 元 组 的 时 候 ， 输 出 MoveExec 元 组 的 name 属 性 作为 答案 的 一 
部 分 。 如 果 来 自 Movies 的 元 组 是 Star Wars， 并 且 来 自 MoveiExec 中 的 元 组 是 George Lucas， 这 
时 电影 名 是 正确 的 并 且 证 书号 也 符合 ， 两 个 条 件 都 满足 ， 于 是 获得 所 需要 的 资料 。 这 时 George 
Lucas 作 为 唯一 输出 的 值 。 图 6-3 说 明了 整个 过 程 。6.2.4 节 中 将 更 详细 地 解释 多 关系 查询 。 口 

title producerC# name cert# 
这 些 元 组 是 
否 相等 ? 








任意 
元 组 


MovieExec 
是 否 为 “Star Movies 
Wars” ?7 


车 是 ， 则 输出 该 元 组 


图 6-3 例 6.12 的 查询 处 理 过 程 示意 图 


6.2.2 消除 属性 歧义 

有 时 当 查 询 涉及 几 个 关系 的 时 候 ， 关 系 中 可 能 会 有 两 个 或 两 个 以 上 的 属性 具有 相同 的 名 
字 。 如 果 是 这 样 ， 就 需要 用 明确 的 方式 指定 这 些 相 同名 字 的 属性 是 如 何 被 使 用 的 。SQL 通 过 
在 属性 前 面 加 上 关系 名 和 一 个 点 来 解决 这 个 问题 。 如 R. 4 表示 关系 R 的 属性 4。 

例 6.13 两 个 关系 


MovieStar(name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 
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都 有 属性 name 和 address。 假 定 希望 找 出 地 址 相同 的 影星 和 制 片 人 。 下 面 的 查询 符合 要 求 。 


SELECT MovieStar.name, MovieExec.name 
FROM MovieStar, MovieExec 
WHERE MovieStar.address = MovieExec.address; 


在 这 个 查询 里 ， 查 找 一 对 元 组 ， 一 个 来 自 MovieSatr ， 另 一 个 来 自 MovieExec， 它 们 的 
address 字 段 相同 。WHERE 子 句 指明 了 来 自 两 个 关系 的 address 字 段 必须 相同 。 对 于 每 一 对 匹 
配 的 元 组 ， 从 MovieStar 和 MovieExec 的 元 组 里 分 别提 取 name 属 性 ， 结 果 是 元 组 配对 的 一 个 集 
全 如 ; 


MovieStar.name | MowieBrec.name 
Jane Fonda Ted Turner 
和 $$ 口 


即使 属性 没有 二 义 性 ， 在 它 前 面 加 上 关系 名 和 一 个 点 也 是 允许 的 。 例 如 ， 也 可 以 把 例 6.12 
的 查询 写成 
SELECT MovieExec .name 
FROM Movies, MovieExec 
WHERE Movie.title = ’Star Wars’ 
AND Movie.producerC# = MovieExec.cert#; 


和 前 面 例子 不 同 的 是 ， 这 里 在 属性 前 面 给 出 了 属性 所 属 的 关系 。 


6.2.3 元 组 变量 

只 要 查询 涉及 多 个 关系 ， 就 可 以 通过 在 属性 名 前 面 加 上 属性 的 关系 名 和 一 个 点 来 区 分 不 
同 关系 同名 的 属性 。 但 有 时 查询 可 能 使 用 到 同一 个 关系 中 的 两 个 或 更 多 的 元 组 。 由 于 查询 需 
要 ， 可 以 在 FROM 子 句 里 将 关系 R 列 出 任意 次 ， 但 是 对 每 一 个 R 的 出 现 需要 一 种 方式 来 区 分 。 
SQL 允 许 为 FROM 子 句 中 每 次 出 现 的 R 定 义 一 个 别名 ， 称 之 为 元 组 变量 (tuple variable) 。 方 法 
是 在 FROM 子 句 中 的 每 一 个 R 的 后 面 跟 一 个 〈 可 选 的 ) 保留 字 AS 和 元 组 变量 的 名 字 。 下 面 的 讨论 
中 将 省 略 保留 字 AS 。 

在 SELECT 和 WHERE 子 句 中 ， 可 以 通过 在 属性 前 加 上 一 个 正确 的 元 组 变量 和 一 个 点 符号 来 消 
除 关 系 R 的 属性 歧义 。 这 样 ， 元 组 变量 可 以 作为 关系 R 的 另外 一 个 名 字 出 现在 需要 的 地 方 。 


元 组 变量 和 关系 名 字 
从 技术 角度 上 来 说 ， 对 SELECT 子 句 和 WHERE 子 句 中 的 属性 引用 都 是 针对 元 组 变量 的 。 但 


如 果 一 个 关系 名 仅 在 FROM 子 句 中 出 现 一 次 ， 则 可 以 将 该 关系 名 作为 它 的 元 组 变量 。 也 可 以 
认为 FROM 子 句 中 的 关系 是 R AS R 的 简写 。 进 一 步 还 可 以 看 到 ， 当 一 个 属性 明确 地 属于 茶 个 
关系 时 ， 这 个 关系 名 (元 组 变量 ) 可 以 省 略 。 


例 6.14 与 例 6.13 中 查找 具有 相同 地 址 的 影星 和 制 片 人 不 同 ， 本 例 是 想 找 出 具有 相同 地 址 
的 两 个 影星 。 查 询 本 质 上 是 相同 的 ， 但 本 例 中 要 考虑 两 个 来 自 MovieStar 中 的 元 组 ， 而 不 是 分 
别 来 自 MovieStar 和 MovieExec 关 系 的 元 组 。 用 元 组 变量 作为 别名 区 分 对 MovieStar 的 两 次 使 
用 。 查 询 语句 可 以 写成 如 下 形式 。 

SELECT Starl.name, SUL. dia 

FROM MovieStar Stari, MovieStar Star2 


WHERE Stari.address = Star2.address 
AND Stari.name < Star2.name; 
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可 以 看 到 在 FROM 子 句 中 声明 了 两 个 元 组 变量 Star1 和 Star2， 每 一 个 都 是 关系 MovieStar 
的 别名 。 这 两 个 元 组 变量 在 SELECT 子 句 中 引用 两 个 元 组 的 name 字 段 ， 而 在 NMHERE 子 句 中 ， 由 
Starl 和 Star2 表 示 两 个 MovieStar 元 组 的 address 字 有 段 的 值 相同 。 

WHERE 子 铝 中 的 第 二 个 条 件 Starl.name<Star2.name 表 示 一 个 影星 名 字 的 字典 顺序 在 第 二 
个 影星 名 字 之 前 。 如 果 这 个 条 件 漏 掉 的 话 ， 那 么 Star1 和 Star2 可 能 引用 的 是 同一 个 元 组 。 两 
个 元 组 变量 引用 address 字 段 值 相同 的 元 组 ， 这 样 就 会 产生 一 对 相同 的 影星 ” 。 第 二 个 条 件 也 
使 得 对 于 每 一 对 具有 相同 地 址 的 影星 仅 以 字典 顺序 输出 一 次 。 如 果 使 用 <> (不 等 于 ) 作 为 比 
较 运 算 符 ， 将 会 把 那些 住 在 一 起 的 已 婚 影星 重复 输出 。 如 : 

Starl.name Star2.name 


Paul Newman Joanne Woodward 
Joanne Woodward | Paul Newman 





6.2.4 多 关系 查询 的 解释 

有 几 种 不 同 的 方式 定义 前 面 讲 到 的 selectfrom-where 表 达 式 的 意义 。 如 果 每 个 查询 应 用 到 
相同 的 关系 实例 上 并 且 返 回 相同 的 结果 ， 则 称 它们 都 等 价 。 下 面 将 对 它们 依次 进行 讨论 : 

艾 套 循环 

到 目前 为 止 ， 在 例子 中 一 直 隐 含 使 用 的 语义 是 元 组 变量 。 一 个 元 组 变量 包括 了 相应 关系 
的 所 有 元 组 。 如 同 在 方 框 “元 组 变量 和 关系 名 字 ” 中 提 到 的 ， 没 有 使 用 别名 的 关系 名 也 是 元 
组 变量 ， 它 也 包括 了 该 关系 的 所 有 元 组 。 如 果 使 用 了 几 个 元 组 变量 ， 可 以 把 它们 想象 成 能 套 
循环 ， 每 一 个 元 组 变量 为 一 个 循环 ， 访 问 了 所 代表 的 关系 里 的 每 一 个 元 组 。 当 每 次 把 元 组 的 
值 赋 给 元 组 变量 的 时 候 ， 要 判断 MHERE 子 句 是 否 为 真 。 如 果 是 ， 则 产生 一 个 由 跟 在 SELECT 语句 
后 面 的 表达 式 值 构成 的 元 组 。 注 意 ， 是 用 当前 赋 给 元 组 变量 的 元 组 中 的 值 取代 表达 式 中 的 每 
一 项 。 查 询 一 回答 算法 由 图 6-4 给 出 。 


LET the tuple variables in the from-clause range over 
relations Ri,R;,... ,Rn; 
FOR each tuple t1 in relation R1 DO 
FOR each tuple 如 in relation R» DO 


FOR each tuple tn in relation R;, DO 
IF the where-clause is satisfied when the values 
from ti,to,... ,tn are substituted for all 
attribute references THEN 
evaluate the expressions of the select-clause 
according to t,t2,... ,tn and produce the 
tuple of values that results. 





图 6-4 回答 一 个 简单 SQL 查询 
并 行 赋值 
可 以 通过 一 个 等 价 的 定义 来 说 明 ， 该 定义 中 非 显 式 地 创建 包括 了 元 组 变量 艇 套 循环 ， 而 
是 以 一 种 任意 的 顺序 ， 或 者 说 并 行 的 顺 行 从 适当 的 关系 中 把 所 有 可 能 的 元 组 都 赋 给 元 组 变量 。 


号 在 例 6.13 中 ， 当 某 个 人 既是 影星 又 是 制 片 人 的 时 候 也 会 出 现 类 似 问 题 。 可 以 通过 要 求 两 个 名 字 不 同 来 解决 
该 问题 。 
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对 于 每 一 个 赋值 ， 考 虑 WHERE 子 句 是 否 为 真 。 每 一 种 产生 真 值 WHERE 子 句 的 赋值 给 答案 贡献 一 
个 元 组 。 该 元 组 由 SELECT 子 句 中 的 属性 构造 给 出 ， 通 过 赋 给 的 值 计 算 相 应 字段 的 值 。 
转换 为 关系 代数 

第 三 种 方案 是 把 SQL 查询 和 关系 代数 关联 起 来 。 从 FROM 子 句 后 面 的 元 组 变量 开始 ， 求 它 
们 表示 的 关系 的 笛 卡 儿 积 。 如 果 两 个 元 组 变量 表示 同一 个 关系 ， 那 么 这 个 关系 在 笛 卡 儿 乘 法 
中 出 现 两 次 ， 并 且 对 它 的 属性 重新 命名 以 保证 所 有 属性 的 名 字 都 不 相同 。 同 样 ， 对 来 自 不 同 
关系 的 同名 属性 也 重 命名 以 防止 歧义 。 

在 获得 笛 卡 儿 积 之 后 ， 通 过 直接 把 MHERE 子 句 转换 成 一 个 选择 条 件 对 它 进 行 选择 操作 。 即 
WHERE 子 句 中 引用 的 属性 由 笛 卡 儿 积 中 对 应 的 属性 所 取代 。 最 后 ， 利 用 SELECT 子 句 中 提供 的 表 
达 式 列表 作 最 后 的 (扩展 的 ) 投影 操作 。 和 WHERE 子 名 一样， 直接 把 SELECT 子 句 中 引用 的 每 个 
属性 作为 关系 积 中 的 相应 属性 。 

例 6.15 把 例 6.14 的 查询 转换 成 关系 代数 。 首 先 ，FROM 子 句 中 存在 两 个 元 组 变量 ， 每 一 个 
都 引用 关系 MovieStar。 这 样 表达 式 (没有 重 命 名 ) 开始 为 

MovieStar x MovieStar 
结果 关系 拥有 八 个 属性 ， 前 面 四 个 来 自 关系 MovieStar 第 一 份 拷贝 的 属性 name 、address、 
gender 和 birthdate。 后 四 个 来 自 关系 MovieStar 第 二 份 拷贝 的 同名 属性 。 通 过 在 属性 前 加 上 
元 组 变量 的 别名 和 一 个 点 来 重 命名 (例如 Starl.gender)。 为 了 简洁 ， 这 里 使 用 新 的 符号 把 这 
些 属性 称 为 41, A;,…, As。 这 样 ，A1 对 应 Starl.name，A; 对 应 Star2.name， 如 此 类 推 。 

在 对 属性 重 命名 后 ， 从 WHERE 子 句 获 得 的 选择 条 件 是 4: = Ae 和 和 Ai<As。 投 影 列表 是 A1、As。 
这 样 关 系 代 数 运算 

TA1,As (ne AND A1<As (PM(A1,A2,As,As) (MovieStar) x PN(As,AsA7,4s) (MovieStar)) ) 
描述 了 整个 查询 。 口 

SQL 语义 导致 的 意外 结果 
假定 R、S 和 T 是 一 元 关系 〈 仅 包含 一 个 字段 ) ， 每 个 关系 仅仅 包含 一 个 属性 4。 如 果 希 
望 找 出 那些 在 R 中 同时 也 在 8 或 了 中 (或 者 在 二 者 中 ) 的 元 素 ， 即 计算 RN(SUT)。 人 们 可 以 
指望 下 面 的 SQL 查询 完成 这 项 工作 。 


SELECT R.A 
FROM R，S，T 
WHERE R.A = S.A OR R.A = 了 T.A; 


然而 当 关 系 T 为 空 的 时 候 情况 有 些 特别 。 由 于 R.A = T.A 不 可 能 满足 ， 人 们 可 能 直观 地 根 
据 “OR” 操 作 符 认为 该 查询 产生 RN 站 5S。 然而 无 论 使 用 6.2.4 节 的 哪 种 定义 ,不管 R 和 S 有 多 
少 相同 的 元 素 ， 结 果 都 是 空 。 如 果 用 图 6-4 嵌 套 循环 语义 来 解释 ， 会 发 现 元 组 变量 7 循环 重 
复 0 次 ， 这 是 因为 该 关系 中 没有 元 组 可 以 扫描 。 这 样 ，for 循 环 的 让 子 句 就 不 会 执行 ， 因 此 不 
会 产生 任何 结果 。 同 样 ， 如 果 采 用 把 元 组 赋 给 元 组 变量 的 方式 ， 因 为 没有 任何 可 以 赋 给 元 
组 变量 7 的 元 组 ， 所 以 没有 任何 赋值 。 最 后 ， 如 果 使 用 笛 卡 儿 积 的 方式 开始 计算 尽 x 3SxT， 
结果 也 会 是 空 ， 因 为 7 是 空 。 





6.2.5 查询 的 并 、 交 、 差 
在 关系 代数 中 可 以 用 集合 操作 的 并 、 交 和 差 来 组 合 关系 。SQL 提 供 了 对 应 的 操作 用 在 查 
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询 结果 上 ， 条 件 是 这 些 查询 结果 提供 的 关系 具有 相同 的 属性 和 属性 类 型 列表 。 保 留 字 UNION、 
INTERSECT 和 EXCEPT 分 别 对 应 介 、U 和 一 。 当 UNION 这 样 的 保留 字 用 于 两 个 查询 时 ， 查 询 应 该 
分 别 用 括号 括 起 来 。 

例 6.16 ”假定 要 找 出 那些 既是 女 影星 又 同时 是 具有 超过 $10 000 000 资 产 的 制 片 人 的 名 字 





可 个 

和 地 址 。 使 用 下 面 两 个 关系 : (SELECT name, address 

MovieStar (name, address, gender, birthdate) FROM MovieStar 

MovieExec(name, address, cert#, netWorth) WHERE gender = ’F'’) 

、 二 要 INTERSECT 

可 以 使 用 图 6-5 的 查询 来 完成 任务 。 这 里 第 (1) 到 第 (3) 行 (SELECT name, address 
产生 一 个 模式 为 (name，address) 的 关系 ， 该 关系 的 FROM MovieExec 
六 i WHERE Worth > 10000000); 
元 组 是 女 影星 的 名 字 和 地 址 。 人 


类 似 地 ， 第 (5) 到 第 (7) 行 产生 那些 身价 在 $10 000 000 图 6-5 女 影星 和 富有 的 制 片 人 的 交集 
的 “富有 ” 制 片 人 的 元 组 集合 。 这 个 查询 也 同样 产生 
一 个 只 具有 属性 name 和 address 的 关系 模式 。 由 于 两 个 查询 产生 的 模式 是 相同 的 ， 可 以 对 它们 
取 交 ， 如 图 第 (4) 行 所 示 。 下 
例 6.17 按照 类 似 的 方式 ， 也 能 够 从 两 个 关系 中 找 出 两 类 人 员 组 成 的 集合 的 差异 。 查 询 语 句 
(SELECT name, address FROM MovieStar) 


EXCEPT 
(SELECT name, address FROM MovieExec) 


给 出 了 不 是 电影 公司 制 片 人 的 影星 的 名 字 和 地 址 ， 这 里 没有 考虑 性 别 和 资产 。 口 

在 上 面 的 两 个 例子 中 ， 进 行 交 或 者 差 运 算 的 关系 的 属性 恰好 完全 相同 。 然 而 ， 如 果 有 必 
要 得 到 相同 的 属性 集 的 话 ， 可 以 像 例 6.3 中 那样 重新 命名 属性 。 

例 6.18 ”假定 想得到 所 有 出 现在 Movies 或 starsIn 关 系 中 的 电影 的 名 字 和 人 年份 。 其 关系 定 
义 是 : 

Movies(title, year, length, genre, studioName, producerC#) 

StarsIn(movieTitle, movieYear, starName) 





在 理想 情况 下 ， 电 影 的 元 组 集 应 该 相同 ， 但 是 实际 使 用 的 关系 中 通常 不 同 。 例 如 可 能 有 
的 电影 没有 列 出 影星 ， 或 者 StarsIn 中 的 元 组 提 到 某 部 电影 但 是 在 Movie 关 系 中 却 找 不 到 。 
其 查询 语句 可 以 这 样 写 : 

(SELECT title, year FROM Movie) 


UNION 
(SELECT movieTitle AS title, movieYear AS year FROM StarsIn); 


结果 是 返回 所 有 出 现在 Movie 或 5tarsIn 中 的 有 影星。 查询 结果 的 关系 属性 为 title 和 year。 口 


易 读 的 SQL 查 询 
通常 ， 在 写 SQL 查 询 时 把 重要 的 保留 字 如 FROM 或 WHERE 作为 每 一 行 的 开头 。 这 种 风 


格 使 得 读者 能 直观 地 理解 查询 的 结构 。 但 在 一 个 查询 或 子 查询 非常 短 的 时 候 ， 可 以 直接 把 它 
写成 一 行 ， 就 像 例 6.17 所 示 的 那样 。 这 种 风格 使 得 查询 语句 很 紧凑 ， 也 具有 很 好 的 可 读 性 。 





6.2.6 习题 
习题 6.2.1 根据 给 出 的 电影 数据 库 模式 例子 ， 用 SQL 写 出 下 面 的 查询 。 


但 ”防止 出 现 这 种 分 睹 的 方法 见 7.1.1 节 。 
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Movies(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieStar (name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 


a) 哪些 男 影星 出 演 了 电影 Titanic? 
b) 哪些 影星 在 MGM 于 1995 年 制作 的 电影 里 演出 ? 
c) 谁 是 MGM 电 影 公 司 的 总 裁 ? 
1d) 哪些 电影 的 时 间 比 Gone with the wind 长 ? 
!e) 哪些 制 片 人 的 资产 比 Merv Griffin 多 ? 
习题 6.2.2 根据 习题 2.4.1 的 数据 库 模 式 和 数据 写 出 下 面 的 查询 ， 并 求 出 查询 结果 。 
Product (maker, model, type) 
PC(model, speed, ram, hd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer (model, color, type, price) 
a) 查询 硬盘 容量 至 少 30G 的 笔记 本 电脑 制造 商 及 该 电脑 的 速度 。 
b) 查询 制造 商 8 生 产 的 任意 类 型 的 所 有 产品 的 型 号 和 价格 。 
c) 查询 只 卖 笔记 本 电脑 不 卖 PC 的 厂商 。 
! d) 查询 出 现在 两 种 或 两 种 以 上 PC 中 的 硬盘 的 大 小 。 
!e) 查询 每 对 具有 相同 速度 和 RAM 的 PC 的 型 号 。 每 一 对 只 能 列 出 一 次 ; 例如， 若 (i, 有) 已 被 列 出 ， 
则 GG, 让 就 不 能 再 被 列 出 。 
149 查询 生产 至 少 两 种 速度 至 少 为 3.0 的 电脑 (PC 或 笔记 本 电脑 ) 的 厂商 。 
习题 6.2.3 根据 习题 2.4.3 的 数据 库 模式 和 数据 写 出 下 面 的 查询 并 求 出 查询 结果 。 


Classes(class, type, country, numGuns, bore, displacement) 
Ships (name, class, launched) 

Battles (name, date) 

Dutcomes(ship, battle, result) 


a) 找 出 重量 超过 35 000 吨 的 船只 。 
b) 找 出 参加 Guadalcanal 战 斗 的 船只 的 名 字 、 排 水 量 和 火炮 数量 。 
c) 列 出 数据 库 中 提 到 的 所 有 船只 (切记 ， 并非 所 有 的 船只 都 出 现在 Ships 关 系 中 )。 
! d) 找 出 同时 拥有 战列舰 和 巡洋舰 的 国家 。 
!e) 找 出 曾 在 某 次 战斗 中 被 击毁 但 后 来 又 在 其 他 战斗 中 出 现 的 船只 。 
!f) 找 出 来 自 同一 个 国家 的 至 少 三 艘 船只 参战 的 战斗 。 
! 习 题 6.2.4 一 个 关系 代数 查询 的 一 般 形 式 为 : 
Mr (Oc(Ri x Rx x R,)) 
这 里 , L 是 任意 属性 列表 ，C 是 任意 条 件 。 关 系列 表 中 Ri, R,,…, Rs, 可 能 包括 某 个 几 次 重复 出 现 的 关系 ， 
这 种 情况 下 可 以 对 Ri 进行 重 命名 。 用 SQL 给 出 这 种 形式 的 任意 查询 。 
! 习 题 6.2.5 ” 另 一 个 常用 的 关系 代数 查询 格式 是 
Nr (Ooc(RI BR2 外 … DAR,)) 
使 用 与 习题 6.2.4 中 同样 的 假定 。 不 同 的 是 这 里 使 用 的 是 自然 连接 而 不 是 笛 卡 儿 积 。 用 SQL 给 出 这 种 形 
式 的 查询 。 
6.3 子 查询 
在 SQL 中 ， 一 个 查询 可 以 通过 不 同 的 方式 被 用 来 计算 另 一 个 查询 。 当 某 个 查询 是 另 一 个 
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查询 的 一 部 分 时 ， 称 之 为 子 查询 (subquery)。 子 查询 还 可 以 拥有 下 一 级 的 子 查 询 。 如 此 递 推 ， 
可 以 随 需要 拥有 多 级 子 查询 。 前 面 已 经 看 到 过 使 用 子 查 询 的 例子 。 在 6.2.5 节 中 ， 通 过 连接 两 
个 子 查询 形成 一 个 新 的 查询 可 以 完成 关系 的 并 、 交 和 差 。 还 有 一 些 使 用 子 查 询 的 其 他 方式 : 

1. 子 查询 可 以 返回 单个 常量 ， 这 个 常量 能 在 WHERE 子 句 中 和 另 一 个 常量 进行 比较 。 

2. 子 查询 能 返回 关系 ， 该 关系 可 以 在 WHERE 子 句 中 以 不 同 的 方式 使 用 。 

3. 像 许多 存储 的 关系 一 样 ， 子 查询 形成 的 关系 能 出 现在 FROM 子 句 中 ， 并 且 后 面 紧 跟 该 关 
系 的 元 组 变量 。 


6.3.1 产生 标量 值 的 子 查询 

一 个 能 成 为 元 组 字段 值 的 原子 值 称 为 标量 〈scalar) 。 一 个 select-from-where 表 达 式 产生 的 
关系 可 以 有 任意 多 的 属性 和 元 组 。 可 是 ， 人 们 往往 只 对 一 个 属性 的 值 感 兴趣 ， 而 且 有 时 可 以 
通过 键 的 信息 或 其 他 信息 推断 出 该 属性 仅 有 一 个 值 。 

如 果 这 样 的 话 ， 可 以 把 这 个 select-from-where 子 句 括 起 来 看 作 一 个 标量 。 特 定 条 件 下 ， 它 
可 以 出 现在 WHERE 子 名 中 任何 常量 或 者 表示 元 组 字段 的 属性 的 地 方 。 例 如 ， 可 以 用 子 查询 的 结 
果 和 一 个 常量 或 属性 比较 。 

例 6.19 回忆 在 例 6.12 中 ， 为 了 要 找 出 影片 Star Wars 的 制 片 人 ， 不 得 不 对 如 下 两 个 关系 进 
行 查询 : 

Movies(title, year, length, genre, studioName, producerC#) 

MovieExec(name, address, cert#, netWorth) 


这 是 因为 只 有 前 者 包含 电影 片 名 信息 ， 而 后 者 含有 制 片 人 的 名 字 。 两 个 信息 通过 证 书号 连接 
在 一 起 。 证 书号 码 唯一 地 标识 了 制 片 人 人。 查询 可 以 写 为 : 
SELECT name 


FROM Movies, MovieExec 
WHERE title = ’Star Wars’ AND producerC# = cert#; 


用 关系 Movies 仅 仅 是 为 了 取得 影片 Star Wars 的 制 FROM MovieExec 
片 人 的 证 书号 。 一 旦 获得 这 个 号 码 ， 就 可 以 用 它 DO 


在 关系 MovieExec 中 查 到 对 应 的 制 片 人 人 名字。 第 一 FROM Movies 
个 问题 ， 取 得 制 片 人 的 证 书号 可 以 写成 一 个 子 查 AN 
询 。 该 子 查询 的 结果 可 以 作为 单个 值 用 在 主 查 询 
中 ， 从 而 取得 和 上 面 查询 同样 的 结果 。 图 6-6 给 出 图 6-6 通过 棋 套 子 查询 找 出 影片 Star Wars 的 
了 这 个 查询 语句 。 制 片 人 

图 6-6 的 第 (4) 到 第 (6) 行 是 子 查询 。 单 独 地 看 这 个 简单 查询 ， 它 的 结果 是 一 个 具有 唯一 属性 
producerC# 的 关系 ， 我 们 期 望 从 这 个 关系 中 仅 找到 一 个 元 组 。 该 元 组 为 (12345) 的 形式 ， 也 就 
是 说 ， 是 某 个 整 型 值 的 单个 值 ， 即 可 能 是 12345 或 是 其 他 某 个 数值 代表 George Lucas 的 证 书号 。 
如 果子 查询 返回 零 个 或 多 个 元 组 ， 就 会 出 现 运行 错误 。 

执行 完 这 个 子 查询 后 ， 可 以 看 作 先 用 12345 替 换 了 整个 子 查询 ， 然 后 再 执行 图 6-6 的 第 (1) 
到 第 (3) 行 ， 即 主 查询 按照 如 下 的 方式 执行 : 

SELECT name 


FROM MovieExec 
WHERE cert# = 12345; 


查询 的 结果 是 George Lucas。 口 
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6.3.2 关系 的 条 件 表 达 式 

有 许多 SQL 运 算 符 可 以 作用 在 关系 R 上 并 产生 布尔 值 结 果 。 但 关系 R 必 须 被 表示 为 子 查 询 。 
举 个 极端 的 例子 ， 若 想 对 保存 的 表 Foo 应 用 这 些 运算 符 ， 可 以 用 子 查询 (SELECT#FROM Foo)。 
对 于 关系 的 并 、 交 和 差 ， 也 可 以 举 出 类 似 的 例子 。 注 意 ，6.2.5 节 介绍 的 那些 运算 符 作 用 于 两 
个 子 查询 上 。 

一 些 运算 符 ， 如 IN、ALL 和 ANY， 将 首先 在 包含 标量 值 s 的 简单 形式 中 被 解释 。 在 这 种 情况 
下 ， 子 查询 R 需 要 产生 一 个 单列 的 关系 。 这 里 给 出 这 些 运 算 符 的 定义 。 

1. EXISTS R 是 一 个 条 件 ， 表 示 当 且 仅 当 R 非 空 时 为 真 。 

2.5 IN R 为 真 ， 当 且 仅 当 s 等 于 R 中 的 某 一 个 值 。 类 似 地 ，s NOT IN R 为 真 ， 当 且 仅 当 s 不 等 
于 R 中 的 任何 一 个 值 。 这 里 假定 R 是 一 元 关系 。 在 6.3.3 节 中 将 讨论 当 R 的 属性 不 止 一 个 且 s 是 一 
个 元 组 时 ，IN 和 NO0T IN 运 算 符 的 扩展 情况 。 

3.5 > ALL R 为 真 ， 当 且 仅 当 s 大 于 一 元 关系 R 中 的 任何 一 个 值 。 运 算 符 > 可 以 替换 成 其 他 五 
个 比较 运算 符 之 一 ， 得 到 的 条 件 表达 式 具 有 类 似 的 意义 : s 对 R 中 每 个 元 组 都 满足 给 定 的 比较 
关系 。 例 如 ，s <> ALL R 和 s NOT IN R 的 意义 相同 。 

4. 5s > ANY R 为 真 ， 当 且 仅 当 s 至 少 大 于 一 元 关系 R 中 的 某 个 值 。 类 似 地 ， 运 算 符 > 可 以 替换 
成 其 他 五 个 比较 运算 符 之 一 ， 得 到 的 条 件 表达 式 具 有 类 似 的 意义 : s 至 少 和 R 中 一 个 元 组 满足 
给 定 的 比较 关系 。 例 如 ，s = ANY R 和 s IN R 的 意义 相同 。 

就 像 别 的 布尔 表达 式 一 样 ， 可 以 在 使 用 EXISTS、ALL 和 ANY 的 表达 式 前 面 加 上 NOT 以 取 非 。 
这 样 ，NOT EXISTS R 表 示 当 且 仅 当 R 为 空 时 为 真 ，N0OT s > ALL R 表 示 当 且 仅 当 s 不 大 于 R 中 的 最 
大 值 时 为 真 ，NOT s > ANY R 表 示 当 且 仅 当 s 不 大 于 R 中 的 最 小 值 时 为 真 。 在 后 面 会 看 到 几 个 使 
用 这 些 运算 符 的 例子 。 


6.3.3 元 组 的 条 件 表达 式 

元 组 在 SQL 中 通过 括号 括 起 来 的 标量 值 列表 来 表达 。 例 如 (123， foo”) 和 (name， 
address，mnetworth)。 前 者 用 常量 作为 元 组 分 量 ， 后 者 用 属性 作为 元 组 分 量 。 属 性 和 常量 混 
合 在 一 起 也 是 可 以 的 。 

如 果 一 个 元 组 t 和 关系 R 的 元 组 有 相同 的 组 成 分 量 个 数 ， 那 么 使 用 6.3.2 节 的 运算 对 t 和 R 进 
行 比较 是 有 意义 的 。 例 如 ! IN R 或 1<>ANY R。 如 果 第 二 个 比较 表达 式 为 真 ， 意 味 着 R 中 存在 着 
与 1 不 同 的 元 组 。 注 意 ， 当 对 一 个 元 组 和 关系 R 的 成 员 进行 比较 时 ， 必 须 按照 关系 属性 的 假定 
标准 顺序 来 比较 各 字段 值 。 

SELECT name 
FROM MovieExec 
WHERE cert# IN 


(SELECT producerC# 
FROM Movies 


WHERE (title, year) IN 
(SELECT movieTitle, movieYear 
FROM StarsIn 
WHERE starName = ’Harrison Ford’ 





”图 6-7 找 出 Harrison Ford 演 过 的 电影 的 制 片 人 
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例 6.20 在 图 6-7 的 查询 中 ， 使 用 了 如 下 三 个 关系 : 


Movies(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 
MovieExec(name, address, cert#, netWorth) 


要 查找 Harrison Ford 主 演 的 电影 的 制 片 人 。 它 包括 一 个 主 查询 和 一 个 嵌 套 在 主 查 询 中 的 子 查 
询 ， 以 及 和 嵌 套 在 该 子 查询 中 的 另 一 个 子 查询 。 

分 析 艇 套 查询 应 当 从 里 向 外 分 析 。 因 此 ， 先 来 看 从 第 (7) 到 第 (9) 行 的 峙 在 最 里 层 的 子 查询 。 
这 个 查询 检查 关系 StarsIn; 并 找 出 所 有 starName 字 段 为 “Harrison Ford” 的 元 组 。 该 子 查 
询 获得 所 有 满足 检查 条 件 的 电影 名 字 和 制作 年 份 。 记 住 tit1e 和 year 属 性 合 起 来 才 是 关系 
Movies 的 键 ， 所 以 需要 产生 包括 这 两 个 属性 的 元 组 去 唯一 标志 一 部 电影 。 这 样 ， 第 (7) 到 第 (9) 
行 的 结果 类 似 图 6-8 所 示 。 

现在 ， 考 虑 第 (4) 到 第 (6) 行 的 中 间 子 查询 。 它 从 Movies 关 系 中 检索 元 组 ， 这 些 元 组 的 title 
和 year 包 含 在 图 6-8 所 形成 关系 中 。 对 于 每 个 找到 的 元 组 ， 返 回 制 片 人 的 证 书号 ， 所 以 中 间 子 
查询 的 结果 是 所 有 Harrison Ford 出 演 的 电影 制 片 人 的 证 书号 集合 。 

最 后 ， 考 虑 第 (1) 到 第 (3) 行 的 主 查 询 。 它 检查 关系 MovieExec 中 的 元 组 ， 从 中 找 出 Cert# 字 
段 值 与 中 间 子 查询 返回 的 证 书号 集中 的 某 一 个 相等 的 元 组 。 对 于 每 一 个 这 样 的 元 组 ， 返 回 制 
片 人 的 名 字 ， 即 给 出 了 Harrison Ford 出 演 影片 的 制 片 人 的 集合 。 口 

顺便 说 一 下 ， 图 6-7 的 徐 套 查询 以 及 其 他 的 一 些 嵌 套 查询 都 可 以 写成 select-from-where 形 
式 的 单个 查询 语句 ， 与 FROM 子 句 中 的 关系 在 一 起 ， 而 不 论 是 主 查询 还 是 子 查询 中 的 关系 。 而 
IN 联系 由 WHERE 子 句 中 等 于 联系 所 代替 。 如 图 6-9 的 查询 和 图 6-7 中 的 查询 本 质 上 是 相同 的 。 不 
同 之 处 在 于 图 6-9 中 的 查询 可 能 会 返回 重复 的 制 片 人 一 例如 George Lucas- 会 重复 。6.4.1 节 中 将 
讨论 这 个 问题 。 





SELECT name 

FROM MovieExec, Movies, StarsIn 
Star Wars WHERE cert# = producerC# AND 
Raiders of the Lost Ark title = movieTitle AND 
The Fugitive year = movieYear AND 

starName = ’Harrison Ford’; 
图 6-8 内 层 查询 返回 的 Title-year 属性 对 图 6-9 不 用 伐 套 子 查询 找 出 Ford 的 电影 制 片 人 
6.3.4 关联 子 查询 


最 简单 的 子 查询 只 需 计 算 一 次 ， 它 返回 的 结果 用 于 高 层 查询 。 复 杂 的 舱 套 子 查询 要 求 一 
个 子 查询 计算 多 次 ， 每 次 赋 给 查询 中 的 某 项 来 自 子 查询 外 部 的 某 个 元 组 变量 的 值 。 这 种 类 型 
的 子 查 询 叫 做 关联 (correlated) 子 查 询 。 下 面 通过 例子 来 说 明 。 

例 6.21 找 出 被 两 部 或 两 部 以 上 电影 使 用 过 的 电影 名 。 使 用 一 个 外 查询 从 下 面 关系 中 查找 。 

Movies(title, year, length, genre, studioName, producerC#) 
对 于 该 关系 中 的 每 个 元 组 ， 在 子 查 询 中 询问 是 否 有 一 部 电影 具有 相同 的 名 字 和 一 个 比 它 大 的 
年 份 。 整 个 查询 如 图 6-10 所 示 。 

和 分 析 其 他 的 子 查 询 一 样 ， 先 从 第 (4) 到 第 (6) 行 的 最 里 层 的 子 查 询 开 始 分 析 。 如 果 第 (6) 行 
的 01d.title 被 一 个 常量 字符 串 如 “King Kong” 所 替换 的 话 ， 那 么 该 子 查询 很 容易 理解 ， 即 要 
找 出 名 为 King Kong 的 影片 的 制作 年 份 。 这 个 嵌 套 查询 和 以 前 的 稍 有 不 同 。 唯 一 的 问题 在 于 不 能 
确定 01d.tit1e 的 值 。 然 而 ， 当 第 (1) 到 第 (3) 行 的 外 层 查询 对 Movies 中 的 元 组 进行 遍历 时 ， 每 个 
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元 组 可 以 为 01d.tit1e 提 供 一 个 值 . 这 样 可 以 用 提供 的 01d.tit1e 去 执行 第 (4) 到 第 (6) 行 的 子 查询 ， 
从 而 决定 第 (3) 到 第 (6) 行 的 WHERE 子 句 是 否 为 真 。 


SELECT title 


当 某 部 电影 具有 和 01d.tit1e 相 同 的 电影 名 ， 并 FRO Mobien Gi 
且 制 作 年 份 晚 于 元 组 变量 01d 当 前 所 表示 的 元 组 的 电 WHERE year < ANY 
影 制作 年 份 时 ， 第 (3) 行 的 条 件 为 真 。 只 有 当 01d 元 组 ee 
的 年 份 是 该 同名 电影 的 最 近 一 次 制作 时 间 时 ， 该 条 WHERE title = 01d.title 





件 为 真 。 接 下 来 的 第 (1) 到 第 (3) 行 输出 比 具有 同名 电 ) ; 
影 数 少 一 次 的 电影 名 称 。 也 就 是 说 ， 某 部 电影 制作 图 6-10 我 出 不 止 一 次 出 现 的 电影 名 
了 两 次 只 输出 一 次 ， 制 作 了 三 次 的 电影 只 输出 两 次 ， 
如 此 类 推 ? 。 

写 关 联 子 查询 时 很 重要 的 一 点 是 要 注意 名 字 的 作用 范围 (scoping rules) 。 通 常 子 查 询 中 
的 某 个 属性 是 属于 该 子 查询 FROM 子 句 中 的 某 个 元 组 变量 ， 这 时 只 要 该 元 组 变量 所 表示 的 关系 
模式 中 定义 了 该 属性 。 如 果 没 有 定义 该 属性 ， 就 直接 查找 该 子 查询 的 外 层 查询 ， 如 此 类 推 。 
这 样 ， 图 6-10 第 (4) 行 的 year 和 第 (6) 行 的 tit1e 是 第 (5) 行 中 引用 关系 Movies 副 本 的 元 组 变量 属 
性 。 也 就 是 第 (4) 到 第 (6) 行 的 子 查询 所 使 用 的 Movies 关 系 的 副本 。 

另外 ， 可 以 通过 在 属性 前 加 上 某 个 元 组 变量 名 和 一 个 点 表明 该 属性 属于 该 元 组 变量 。 这 
就 是 为 外 层 查 询 的 Movies 关 系 取 01d 别 名 的 原因 , 也 是 在 第 (6) 行 引用 01d.tit1e 的 原因 。 注 意 ， 
如 果 第 (2) 行 和 第 (5) 行 FROM 子 句 中 的 两 个 关系 不 同 ， 就 有 可 能 不 用 别名 。 而 且 ， 在 子 查询 中 可 
以 直接 使 用 第 (2) 行 中 提 到 的 关系 的 属性 。 口 


6.3.5 FROM 子 铝 中 的 子 查询 

子 查询 的 另 一 个 作用 是 在 FROM 子 句 中 当 关 系 使 用 。 在 FROM 列表 中 ， 除 了 使 用 一 个 存储 关 
系 以 外 ， 还 可 以 使 用 括 起 来 的 子 查 询 。 由 于 这 个 子 查 询 的 结果 没有 名 字 ， 必 须 给 它 取 一 个 元 
组 变量 别名 。 然 后 就 可 以 像 引 用 FROM 子 句 中 关系 的 元 组 一 样 引 用 子 查询 结果 中 的 元 组 。 

例 6.22 重新 考虑 例 6.20 中 的 问题 。 在 该 例 中 使 用 一 个 查询 来 找 出 Harrison Ford 演 过 的 电 
影 的 制 片 人 人。 如果 有 一 个 关系 给 出 了 这 些 电 影 的 制 片 人 的 证 书号 ， 那 么 找 出 关系 MovieExec 中 
制 片 人 的 名 字 将 变 得 很 简单 。 图 6-11 给 出 了 这 样 一 个 查询 。 

1) SELECT name 
2) FROM MovieExec, (SELECT producerC# 


FROM Movies, StarsIn 
WHERE title = movieTitle AND 


year = movieYear AND 
starName = ’Harrison Ford’ 
) Prod | 
8) WHERE cert# = Prod.producerC#; 





图 6-11 使 用 FROM 子 名 中 的 子 查 询 找 出 Ford 出 演 的 电影 的 制 片 人 


图 中 第 (2) 到 第 (7) 行 是 外 查询 的 FROM 子 句 。 除 了 MovieExec 关 系 以 外 ， 它 还 有 一 个 子 查 询 。 
该 子 查 询 在 第 (3) 到 第 (5) 行 连接 关系 Movies 和 StarsIn， 在 第 (6) 行 加 上 条 件 要 求 影星 是 Harrison 
Ford， 在 第 (2) 行 返回 电影 的 制 片 人 的 集合 。 在 第 (7) 行 为 这 个 集合 取 了 一 个 别名 Prod。 


日 本 例 第 一 次 提醒 : 在 SQL 中 ， 关 系 是 包 ， 而 不 是 集合 。 在 儿 种 情况 下 ，SQL 关 系 中 可 能 突然 出 现 复制 。6.4 
节 将 详细 讨论 该 问题 。 
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第 (8) 行 将 关系 MovieExec 和 别名 为 Prod 的 子 查询 通过 证 书号 相同 连接 在 一 起 。 第 (1) 行 语 
名 从 MovieExec 中 返回 制 片 人 的 名 字 ， 该 制 片 人 的 证 书号 在 别名 为 Prod 的 集合 中 。 口 


6.3.6 SQL 的 连接 表达 式 

可 以 通过 将 许多 不 同 的 连接 运算 符 作用 在 两 个 关系 上 创建 新 的 关系 。 这 些 不 同 的 运算 包 
括 积 、 自 然 连 接 、9 连 接 和 外 连接 。 结 果 本 身 可 以 作为 一 个 查询 。 另 外 ， 由 于 这 些 表达 式 产生 
的 是 关系 ， 所 以 这 些 表 达 式 可 以 在 select-from-where 表 达 式 中 的 FROM 子 句 中 用 作 子 查询 。 这 些 
表达 式 主要 是 更 复杂 的 select-from-where 查 询 的 速记 (见习 题 6.3.11)。 

连接 表达 式 的 最 简单 形式 是 交叉 连接 (cross join) ; 这 个 术语 和 在 2.4.7 节 中 的 第 卡 儿 积 或 
“ 积 ” 是 同义词 。 例 如 ， 如 果 要 计算 下 面 两 个 关系 

Movies(title, year, length, genre, studioName, producerC#) 

StarsIn(movieTitle, movieYear, starName) 
的 积 ， 则 可 以 写作 

Movies CROSS JOIN StarsIn; 
结果 是 包含 关系 Movies 和 StarsIn 所 有 属性 的 九 个 列 的 关系 。 连 接 结果 关系 中 的 每 个 元 组 由 一 
对 分 别 来 自 Movies 和 StarsIn 中 的 元 组 组 成 。 

关系 积 中 的 属性 可 以 称 为 R.4， 其 中 R 是 两 个 连接 关系 中 的 一 个 ，4 是 它 的 一 个 属性 。 像 以 
前 提 到 的 一 样 ， 如 果 只 有 一 个 关系 具有 属性 4， 那 么 R 和 后 面 的 点 可 以 省 略 。 在 上 面 的 例子 中 ， 
两 个 关系 没有 同名 属性 ， 积 中 直接 使 用 属性 名 就 可 以 了 。 

通常 关系 积 运算 本 身 很 少 在 实际 中 单独 使 用 。 更 常用 的 是 通过 保留 字 0N 来 获得 6 连接 运算 ， 
即 在 关系 R 和 5 之 间 放 一 个 J0IN 保 留 字 ， 后 面 再 跟 一 个 保留 字 0N 和 一 个 条 件 。JOIN. . .ON 的 意 
义 是 在 积 运算 Rx 5 的 基础 上 再 使 用 ON 后面 的 条 件 进 行 选择 运算 。 

例 6.23 假设 要 对 如 下 两 个 关系 做 连接 操作 


Movies(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 


连接 条 件 是 同一 部 电影 的 元 组 才 进行 连接 ， 也 就 是 说 来 自 两 个 关系 的 电影 名 和 年 份 属性 相同 。 
该 查询 语句 如 下 : 


Movies JOIN StarsIn ON 
title = movieTitle AND year = movieYear; 


结果 仍然 是 具有 九 列 的 关系 和 同样 的 属性 名 。 不 同 的 是 对 于 来 自 StarsIn 的 元 组 和 来 自 Movies 
的 元 组 ， 只 有 当 它 们 的 电影 名 和 年 份 相同 时 才 合 并 成 为 新 的 关系 中 的 元 组 。 结 果 中 有 两 个 列 
是 元 余 的 ， 因 为 结果 中 每 个 元 组 的 tit1e 和 movieTit1e 字 段 值 及 year 和 movieYear 字 段 值 相 同 。 
对 于 上 面 连接 中 包含 有 元 余 而 不 满意 的 话 ， 可 以 把 整个 连接 表达 式 作为 一 个 子 查询 在 
FROM 子 名 中 使 用 ， 然 后 使 用 SELECT 子 句 去 掉 不 需要 的 属性 。 这 样 ， 该 查询 可 写成 


SELECT title, year, length, genre, studioName, 
producerC#, starName 

FROM Movies JOIN StarsIn ON 
title = movieTitle AND year = movieYear; 


该 查询 返回 七 列 的 关系 ， 甚 中 每 个 元 组 可 以 看 作 是 一 个 Movies 关 系 的 元 组 ， 加 上 演 过 该 部 电 
影 的 某 个 影星 ， 并 以 所 有 可 能 的 方式 扩展 而 成 。 口 
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6.3.7 自然 连接 

回顾 2.4.8 节 的 内 容 ， 自 然 连接 和 6 连接 的 不 同 之 处 在 于 ; 

1. 自然 连接 是 对 两 个 关系 中 具有 相同 名 字 并 且 其 值 相同 的 属性 作 连 接 ， 除 此 之 外 再 没有 
其 他 的 条 件 。 

2. 两 个 等 值 的 属性 只 投影 一 个 。 

SQL 自然 连接 也 是 按照 这 种 方式 进行 。 关 键 字 NATURAL JOIN 出 现在 两 个 关系 之 间 所 表达 
的 意义 和 mm 操作 符 的 意义 相同 。 

例 6.24 假定 需要 计算 下 面 两 个 关系 的 自然 连接 : 


MovieStar (name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 


结果 关系 模式 中 包括 属性 name 和 address， 再 加 上 所 有 出 现在 这 两 个 关系 中 的 其 他 属性 。 结 果 
元 组 表示 既是 影星 也 是 制 片 人 的 那些 人 ， 并 且 还 包括 所 有 相关 的 属性 : 姓名 、 地 址 、 性 别 、 
生日 、 证 书号 和 净 资 产 等 。 表 达 式 

MovieStar NATURAL JOIN MovieExec; 


以 简洁 的 方式 表达 了 该 关系 。 口 


6.3.8 外 连接 

外 连接 在 5.2.7 节 中 介绍 过 ， 它 是 一 种 通过 在 悬浮 元 组 里 填充 空 值 来 使 之 成 为 查询 结果 。 
在 SQL 中 ， 也 可 以 指定 外 连接 。NULL 用 来 表示 空 值 。 

例 6.25 对 下 面 两 个 关系 进行 外 连接 : 

MovieStar (name, address, gender, birthdate) 

MovieExec(name, address, cert#, netWorth) 

SQL 使 用 标准 的 外 连接 ， 它 对 两 个 关系 的 悬浮 元 组 都 进行 填充 ， 即 它 是 一 个 完全 (full) 外 连 
接 。 语 法 形式 为 : 

MovieStar NATURAL FULL OUTER JOIN MovieExec; 

该 运算 结果 和 例 6.24 相 同 ， 也 是 一 个 具有 六 个 属性 的 关系 。 关 系 中 的 元 组 可 以 分 为 三 类 。 第 
一 类 表示 既是 影星 又 是 制 片 人 的 人 ， 这 部 分 元 组 包含 的 六 个 属性 都 不 为 空 ， 和 例 6.24 中 返回 
的 结果 相同 。 

第 二 类 元 组 表示 是 影星 但 不 是 制 片 人 的 一 类 人 。 来 自 关 系 MovieStar 的 属性 name、 
address、gender 和 birthday 包 含有 值 ， 而 仅仅 来 自 关 系 MovieExec 的 属性 cert# 和 mnetWorth 
都 是 NULL 值 。 

第 三 类 元 组 表示 是 制 片 人 但 不 是 影星 的 一 类 人 。 这 时 来 自 关系 MovieExec 的 属性 都 包含 有 
值 ， 但 是 仅仅 来 自 关系 MovieStar 的 属性 如 genger 和 birthdate 都 是 NULL 值 。 例 如 ， 图 6-12 包 
含 的 三 个 元 组 分 别 对 应 了 三 种 类 型 的 人 。 口 





| name |address | gender | birthdate | cert# | networth 


Mary Tyler Moore | Maple St. ?FF? 9/9/99 | 12345 | $100... 


Tom Hanks Cherry Ln. | ’M’ 8/8/88 | NULL | NULL 
George Lucas 0ak Rd. NULL NULL 23456 | $200.…. 


图 6-12 对 MovieStar 和 MovieExec 进 行 外 连接 产生 的 三 个 元 组 


在 5.2.7 节 提 到 的 所 有 不 同 的 外 连接 在 SQL 中 都 提供 。 如 果 想 要 左 或 右 外 连接 ， 用 保留 字 
LEFT 或 RIGHT 放 在 FULL 的 位 置 即 可 。 例 如 ， 
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MovieStar NATURAL LEFT 0UTER JOIN MovieExec; 
将 产生 图 6-12 中 的 前 两 个 元 组 但 不 产生 第 三 个 。 类 似 地 ， 

MovieStar NATURAL RIGHT OQUTER JOIN MovieExec; 
将 产生 图 6-12 的 第 一 个 和 第 三 个 元 组 ， 不 产生 第 二 个 。 

如 果 希 望 是 一 个 6 外 连接 而 不 是 一 个 自然 外 连接 ， 这 时 不 使 用 保留 字 NATURAL ， 而 是 在 连 
接 后 面 加 ON 保留 字 和 一 个 所 有 元 组 都 服从 的 条 件 。 如 果 指 定 了 FULL 0UTER J0IN， 那 么 在 对 
两 个 连接 关系 进行 匹配 以 后 ， 对 每 个 关系 中 的 悬浮 元 组 填充 NULL 值 ， 并 把 它们 包括 在 结果 中 。 

例 6.26 ”重新 考虑 例 6.23， 该 例 中 对 关系 Movies 和 StarsIn 进 行 连接 操作 ， 条 件 是 分 别 来 
自 两 个 关系 的 tit1e 和 movieTit1e 属 性 值 相 同 ， 以 及 year 和 MovieYear 属 性 值 相同 。 如 有 果 修 改 
该 例 使 之 成 为 一 个 完全 外 连接 : 

Movies FULL OUTER JOIN StarsIn ON title = movieTitle AND year = movieYear; 
那么 结果 关系 中 不 但 包括 那些 至 少 有 一 个 影星 在 StarsIn 中 出 现 的 电影 的 元 组 ， 同 时 也 包括 没 
有 影星 的 电影 的 元 组 ， 这 些 元 组 的 movieTit1e、movieYear 和 starName 属 性 都 为 NULL 值 。 同 
样 地 ， 对 于 没有 出 现在 关系 Movies 的 任何 一 部 电影 中 的 影星 也 用 一 个 元 组 列 出 ， 其 来 自 
Movies 关 系 的 六 个 属性 为 NULL。 口 

例 6.26 给 出 的 那 种 类 型 的 外 连接 中 的 保留 字 FULL 可 以 由 RIGHT 或 LEFT 取 代 。 例 如 ， 

Movies LEFT OUTER JOIN StarsIn ON title = movieTitle AND year = movieYear; 
给 出 了 有 影星 出 现 的 Movies 元 组 和 用 NULL 值 填充 的 没有 影星 出 现 的 Movies 元 组 。 但 是 不 会 包 
括 不 在 任何 电影 中 出 现 的 影星 。 相 反 ， 

Movies RIGHT OUTER JOIN StarsIn ON title = movieTitle AND year = movieYear; 
将 会 省 去 那些 没有 任何 影星 出 现 的 电影 的 元 组 ， 但 是 会 包括 没有 在 任何 一 部 电影 中 出 现 的 影 
星 ， 并 在 相应 字段 填 上 NULL 值 。 


6.3.9 习题 
习题 6.3.1 基于 习题 2.4.1 的 数据 库 模式 写 出 后 面 的 查询 。 
Product (maker, model, type) 
PC(model, speed, ram, hd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer (model, color, type, price) 


每 题 的 答案 应 当 至 少 使 用 一 个 子 查询 ， 并 且 要 求 使 用 两 种 不 同 的 方法 写 出 每 个 查询 (例如 ， 使 用 不 
同 运算 符 EXISTS、IN、ALL 和 ANY ) 。 
a) 找 出 速度 在 3.0 以 上 的 PC 制造 商 。 
b) 找 出 价格 最 高 的 打印 机 。 
!c) 找 出 速度 比 任何 一 台 PC 都 慢 的 笔记 本 电脑 。 
!d) 找 出 价格 最 高 的 产品 (PC、 笔 记 本 电脑 或 打印 机 ) 的 型 号 。 
le) 找 出 价格 最 低 的 彩色 打印 机 的 制造 商 。 
19D 找 出 RAM 容 量 最 小 而 PC 中 速度 最 快 者 的 制造 商 。 
习题 6.3.2 基于 习题 2.4.3 的 数据 库 模 式 写 出 后 面 的 查询 。 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) 

Dutcomes(ship, battle, result) 
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每 题 的 答案 应 当 至 少 使 用 一 个 子 查询 ， 并 且 要 求 使 用 两 种 不 同 的 方法 写 出 每 个 查询 〈 例 如 ， 使 用 不 
同 运算 符 EXISTS、IN、ALL 和 ANY ) 。 

a) 找 出 火炮 数量 最 多 的 船只 所 属 的 国家 。 

!b) 找 出 至 少 有 一 稻 船 在 战斗 中 被 击 沉 的 船只 种 类 。 

c) 找 出 具有 16 英 寸 口径 火炮 的 船只 的 名 字 。 

d) 找 出 有 Kongo 类 型 的 船只 参加 的 战斗 。 

!!e) 找 出 具有 相同 口径 火炮 的 船只 中 火炮 数量 最 多 的 船只 的 名 字 。 

! 习 题 6.3.3 不 用 子 查询 写 出 图 6-10 的 查询 。 

! 习 题 6.3.4 ”考虑 关系 代数 表达 式 z (Ri m4 R54… mR,)， 其 中 L 是 仅 属于 RI! 的 属性 的 列表 。 将 该 表达 
式 写成 仅 用 子 查询 的 SQL 语句 。 更 准确 地 说 ， 写 出 一 个 等 价 的 SQL 语句 ， 该 语句 中 每 个 FROM 子 句 列 
表 中 的 关系 均 不 超过 一 个 。 

! 习 题 6.3.5 不 使 用 交 或 差 运 算 符 写 出 下 面 的 查询 。 

a) 图 6-5 的 交 查 询 。 
b) 例 6-17 的 差 查 询 。 

!! 习 题 6.3.6 ”人 们 已 经 注意 到 SQL 的 某 些 运算 符 是 元 余 的 ， 即 它们 可 以 被 其 他 的 一 些 运 算 符 替代 。 例 如 ， 
s IN R 能 被 = ANY R 替 换 。 用 一 个 不 使 用 EXISTS (不 考虑 R 里 面 的 EXISTS) 的 表达 式 来 替换 形 如 
EXISTS R 或 NOT EXISTS R 的 表达 式 ， 以 证 明 EXISTS 和 NOT EXISTS 是 宛 余 的 。 提 示 : 切记 在 SELECT 子 
名 中 可 以 使 用 常量 。 

习题 6.3.7 对 于 如 下 电影 数据 库 模 式 : 
StarsIn(movieTitle, movieYear, starName) 
MovieStar (name, address, gender, birthdate) 


MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) 


描述 下 列 SQL 表 达 式 表示 的 元 组 。 
a) StarsIn CROSS JOIN MovieStar; 
b) Studio NATURAL FULL QUTER JOIN MovieExec; 


5) StarsIn FULL OUTER JOIN MovieStar ON name = starName; 


! 习 题 6.3.8 使 用 如 下 数据 库 模 式 : 
Product (maker, model, type) 
PC(model, speed, ram, hd, rd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer (model, color, type, price) 
写 出 一 个 SQL 查询 ， 该 查询 将 会 返回 所 有 产品 PC、 笔 记 本 电脑 和 打印 机 一 一 的 信息 ， 包 括 它 们 
的 制造 商 (如 果 有 的 话 ) 和 任何 与 产品 相关 的 信息 WA 
习题 6.3.9 使 用 习题 2.4.3 中 的 数据 库 模 式 的 如 下 两 个 关系 : 
Classes(class，type，country，numGuns ，bore，displacement) 
Ships(name, class, launched) 
用 SQL 查 询 输 出 关于 船只 的 所 有 可 用 信息 ， 包 括 关系 Classes 中 的 可 用 信息 。 如 果 在 关系 Ships 中 没 
有 出 现 某 类 型 的 船只 ， 就 不 必 输 出 该 类 型 的 信息 。 
! 习 题 6.3.10 ” 重 做 习题 6.3.9， 对 于 任何 在 Ships 中 没有 出 现 的 类 型 C， 将 类 型 的 名 字 C 作 为 船只 的 名 字 ， 
将 船只 的 信息 添加 到 结果 中 。 可 以 假设 有 艘 该 类 型 的 船 ， 即 使 它 没有 出 现在 Ships 中 。 
! 习 题 6.3.11 ”本 节 学 习 的 连接 运算 符 ( 而 不 是 外 连接 ) 是 元 余 的 ， 即 它 可 以 用 select-from-where 表 达 式 
来 替换 。 写 出 下 列 各 式 的 Select-from-where 表 达 式 。 
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a)R CROSS JOIN S; 
b) R NATURAL JOIN S$; 
c)R JOIN S ON C; ， 其 中 C 是 一 个 SQL 条 件 。 


6.4 全 关系 操作 


本 节 中 ， 将 学 习 把 关系 作为 一 个 整体 而 不 是 单个 元 组 或 一 定数 量 的 元 组 进行 操作 《如 几 
个 关系 的 连接 ) 的 操作 符 。 首先，SQL 把 关系 当 作 包 而 不 是 集合 使 用 ， 一 个 元 组 可 以 在 关系 中 
多 次 出 现 。 在 6.4.1 节 中 将 讨论 如 何 把 操作 的 结果 强制 转换 成 集合 。 在 6.4.2 节 中 将 讨论 如 何 阻 
止 在 SQL 系统 中 默认 地 消除 重复 元 组 。 

接着 ， 开 始 讨论 SQL 对 5.2.4 节 中 的 聚集 操作 运算 符 ; 的 支持 。SQL 也 有 聚集 运算 符 和 
GROUP-BY 子 句 。 还 有 一 个 “HAVIN6” 子 名 允许 以 某 些 方式 对 群 组 进行 选择 。 它 把 每 个 群 组 看 
作 一 个 操作 的 实体 而 不 是 单个 的 元 组 。 


6.4.1 消除 重复 

如 在 6.3.4 节 提 到 的 ，SQL 中 关系 的 概念 不 同 于 2.2 节 中 提出 的 关系 的 抽象 概念 。 一 个 关系 
是 一 个 集合 ， 不 能 包含 某 个 元 组 一 份 以 上 的 拷贝 。 当 SQL 查询 创造 了 一 个 新 关系 时 ，SQL 系 
统 正常 情况 下 不 消除 重复 的 元 组 ， 这 样 ，SQL 查 询 返 回 的 关系 中 可 能 多 次 重复 出 现 某 个 元 组 。 

回忆 6.2.4 节 讲 到 SQL 的 一 个 等 价 的 select-from-where 定 义 ， 该 定义 首先 对 FROM 子 句 中 列 出 
的 关系 做 积 运算 。 积 中 的 每 一 元 组 先 使 用 MHERE 子 句 中 的 条 件 进 行 测 试 ， 通 过 测试 的 元 组 再 使 
用 SELECT 子 句 进行 投影 。 投 影 可 能 造成 积 中 不 同 的 元 组 形成 某 个 重复 相同 的 元 组 ， 如 果 这 种 
情况 发 生 ， 这 些 元 组 都 将 作为 投影 后 的 结果 输出 。 还 有 ，SQL 关 系 本 身 可 以 有 重复 元 组 ， 做 
第 卡 儿 积 后 的 关系 就 会 产生 重复 的 元 组 。 因 为 每 一 元 组 还 要 和 来 自 其 他 关系 中 的 元 组 配对 ， 
所 以 在 积 运 算 后 可 能 产生 更 多 的 重复 元 组 。 

如 果 希 望 结果 中 不 出 现 重复 的 元 组 ， 可 以 在 保留 字 SELECT 后 跟 上 DISTINCT。 该 保留 字 告 
诉 SQL 仅 产生 每 个 元 组 的 一 份 拷贝 。 这 个 和 5.4.1 节 中 对 查询 结果 进行 6 运算 相似 。 

例 6.27 ”考虑 图 6-9 的 查询 ， 在 那里 不 使 用 子 查询 来 查找 Harrison Ford 出 演 的 电影 的 制 片 
人 。 该 例 查询 会 使 George Lucas 的 名 字 在 输出 结果 中 多 次 出 现 ， 如 果 和 希望 仅仅 看 到 每 一 个 制 片 
人 的 名 字 一 次 ， 可 把 第 (1) 行 改 成 

1) SELECT DISTINCT name 
那么 ， 制 片 人 列表 中 重复 出 现 的 名 字 在 打印 输出 前 就 去 掉 了 。 


消除 重复 的 代价 


或 许 有 人 想 在 每 个 SELECT 后 面 放 上 一 个 DISTINCT 消 除 重复 ， 这 样 做 在 理论 上 似乎 不 费 
事 ， 但 实际 上 从 关系 中 消除 重复 的 代价 非常 昂贵 。 关 系 必 须 排 序 或 者 分 组 才能 保证 相同 的 





元 组 紧 挨 在 一 起 。 也 只 有 按 该 算法 分 组 后 才能 决定 某 个 元 组 是 否 可 以 去 掉 。 为 消除 重复 ， 
对 元 组 进行 排序 的 时 间 通 常 比 执行 查询 的 时 间 更 长 。 所 以 如 果 想 要 查询 运行 得 快 就 要 谨慎 
地 使 用 消除 重复 。 





顺便 提 一 下 ， 图 6-7 的 查询 中 由 于 使 用 到 了 子 查询 ， 不 会 出 现 结果 中 元 组 重复 的 问题 。 虽 
然 图 6-7 中 的 第 (4) 行 会 产生 George Lucas 的 证 书号 多 次 ,但 是 在 第 (1) 行 的 主 查询 中 ， 
MovieExec 中 的 每 个 元 组 仅 被 检查 一 次 。 假 定 该 关系 中 只 有 一 个 关于 George Lucas 的 元 组 ， 该 
元 组 就 是 唯一 满足 第 (3) 行 WHERE 子 句 中 条 件 的 元 组 。 这 样 ，George Lucas 只 输出 一 次 。 口 
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6.4.2 并 、 交 、 差 中 的 重复 

SELECT 语 句 中 默认 的 是 保留 重复 的 元 组 ， 除 非 使 用 DISTINCT 保 留 字 指 明 。 与 之 不 同 的 是 在 
6.2.5 节 介绍 的 集合 操作 中 的 并 、 交 和 差 操作 在 默认 情况 下 消除 重复 。 也 就 是 说 ， 包 被 转换 成 了 
集合 ， 操 作 的 集合 版 本 在 这 里 适用 。 如 要 要 阻止 消除 重复 元 组 ， 必 须 在 UNION、INTERSECT 和 
EXCEPT 后 跟 上 保留 字 ALL。 这 样 ， 就 又 回 和 到 了 5.1.2 节 中 讨论 的 这 些 操作 的 包 语 义 。 

例 6.28 再 次 考虑 例 6.18 中 的 集合 表达 式 ， 但 是 加 上 保留 字 ALL 使 之 成 为 : 


(SELECT title, year FROM Movies) 
UNION ALL 
(SELECT movieTitle AS title, movieYear AS year FROM StarsIn); 


现在 ， 把 出 现在 关系 Movies 和 Stars 中 的 title 和 year 组 合 放 在 一 起 ， 导 致 它们 将 会 在 结 
果 中 多 次 出 现 。 例 如 ， 如 果 某 部 电影 在 Movies 关 系 中 有 一 条 记录 ， 并 且 这 部 电影 中 有 三 位 影 
星 在 StarsIn 关 系 中 (因此 这 部 电影 将 会 在 StarsIn 三 个 不 同 的 元 组 中 出 现 ) ， 最 后 这 部 电影 
的 名 字 和 年 份 将 会 在 集合 的 并 运算 结果 中 出 现 四 次 。 口 
对 于 并 运算 ， 操 作 INTERSECT ALL 和 EXCEPT ALL 是 包 的 交 和 差 。 这 样 ， 如 果 R 和 5 是 关系 
的 话 ， 那 么 表达 式 
R INTERSECT ALL 9 
表示 的 关系 中 ,元 组 出 现 的 次 数 是 它 在 R 中 出 现 的 次 数 和 在 5 中 出 现 的 次 数 的 较 小 者 。 表 达 式 
R EXCEPT ALL 5 
表示 的 关系 中 如 果 元 组 ! 多 次 出 现 ， 那 么 它 出 现 的 次 数 是 在 R 中 出 现 的 次 数 减 去 在 3 中 出 现 的 次 
数 ， 结 果 差 为 正 数 。 以 上 讨论 的 每 一 个 定义 都 是 使 用 了 5.1.2 节 关系 的 包 语 义 。 


6.4.3 SQL 中 的 分 组 和 聚集 

在 5.2.4 节 中 ， 分 组 和 聚集 操作 符 y 被 引进 用 来 扩展 关系 代数 。 在 5.2.3 节 的 讨论 中 ， 使 用 该 
操作 能 根据 元 组 的 一 个 或 多 个 属性 将 关系 中 的 元 组 划分 成 “组 ”"。 然 后 对 关系 中 的 其 他 列 可 以 
使 用 聚集 操作 符 进行 聚集 操作 。 如 果 该 关系 已 经 分 组 ， 那 么 聚集 操作 是 对 每 个 分 组 单独 进行 。 
SQL 通过 在 SELECT 子 句 中 的 聚集 操作 和 特定 的 GROUP BY 子 句 提供 了 ?操作 的 所 有 功能 。 


6.4.4 聚集 操作 符 

SQL 使 用 在 5.2.2 节 中 提 到 的 五 个 聚集 操作 符 ， 分 别 是 SUM、AV6、MIN、NMAX 和 COUNT。 这 些 
操作 符 通常 作用 在 一 个 标量 表达 式 上 ， 典 型 的 是 SELECT 子 句 中 的 一 个 列 名。 一 个 例外 是 表达 
式 COUNT(* ) ， 它 计算 由 查询 中 FROM 子 句 和 WHERE 子 句 所 创建 的 关系 中 的 元 组 个 数 。 

另外 ， 通 过 使 用 保留 字 DISTINCT 可 以 在 使 用 聚集 操作 符 之 前 从 列 中 消除 重复 元 组 ， 即 如 
COUNT(DISTINCT x) 这 样 的 表达 式 将 只 计算 列 x 中 不 重复 的 x 的 个 数 。 可 以 把 COUNT 替 换 成 其 他 
的 操作 符 。 不 过 像 SUM(DISTINCT x) 这 样 的 表达 式 几 乎 没有 什么 意义 ， 它 要 求 计算 列 x 中 不 同 
值 的 和 。 

例 6.29 下 面 的 查询 是 找 出 所 有 的 电影 制 片 人 资产 的 平均 值 。 


SELECT AVG(netWorth) 
FROM MovieExec; 


注意 ， 这 里 没有 使 用 WHERE 子 句 ， 保 留 字 WHERE 没 有 出 现在 句 中 。 该 查询 检查 如 下 关系 的 
netWorth 列 ; 


MovieExec(name, address, cert#, netWorth) 
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对 找到 的 值 求 和 ， 每 元 组 计算 一 次 (即使 该 元 组 是 其 他 元 组 的 重复 )， 然 后 对 求 得 的 和 除 以 元 
组 的 数目 。 如 果 没 有 重复 的 元 组 ， 查 询 就 会 给 出 制 片 人 的 平均 资产 ， 这 正 是 查询 所 求 。 但 如 
果 该 关系 中 有 重复 的 元 组 ， 即 一 个 制 片 人 的 元 组 出 现 了 n 次 ， 那 么 求 得 的 平均 值 中 此 人 的 资产 
重复 计算 了 n 次 。 口 
例 6.30 下 面 的 查询 
SELECT COUNT(*) 
FROM StarsIn; 
计算 StarsIn 关 系 中 元 组 的 数目 。 类 似 的 查询 
SELECT COUNT(starName) 
FROM StarsIn; 
计算 starName 列 中 的 值 出 现 的 次 数 。 由 于 SQL 中 对 starName 列 进行 投影 时 不 消除 重复 ， 这 个 
计数 的 结果 和 COUNT(*) 的 结果 相同 。 
如 果 想 保证 不 对 重复 的 值 多 次 计数 ， 在 聚集 的 属性 前 加 上 DISTINCT 保 留 字 就 可 以 了 。 如 : 
SELECT COUNT(DISTINCT starName) FROM StarsIn; 
现在 ， 每 个 影星 无 论 在 多 少 部 电影 中 出 现 都 只 计数 一 次 。 口 


6.4.5 分 组 

在 WHERE 子 名 后面 加 上 一 个 GROUP BY 子 句 可 以 对 元 组 进行 分 组 。 保 留 字 GROUP BY 后 面 跟 
着 一 个 分 组 (grouping) 属性 列表 。 最 简单 的 情况 是 ，FROM 子 句 后 面 只 有 一 个 关系 ， 根 据 分 
组 属性 对 它 的 元 组 进行 分 组 。SELECT 子 句 中 使 用 的 聚集 操作 符 仅 应 用 在 每 个 分 组 上 。 

例 6.31 从 关系 Movies(title, year, length,，genre,，studioName，producerC#) 中 
找 出 每 个 电影 公司 制作 的 电影 总 长 度 。 可 用 如 下 语句 表达 : 

SELECT studioName, SUM(length) 


FROM Movies 
GROUP BY studioName; 


该 语句 是 将 Movies 关 系 的 元 组 重新 组 织 ， 并 且 进 行 分 组 使 得 所 有 的 Disney 公 司 的 元 组 被 组 织 
在 一 起 ， 所 有 MGM 公 司 的 元 组 被 组 织 在 一 起 ， 等 等 ， 就 像 图 5-17 所 展示 的 那样 。 然 后 计算 每 
个 分 组 里 面 的 所 有 元 组 的 1ength 字 段 值 之 和 。 对 于 每 一 个 分 组 ， 电 影 公 司 的 名 字 与 求 得 的 和 
一 起 被 打印 出 来 。 口 

从 例 6.31 中 可 以 看 出 ，SELECT 子 句 有 两 种 概念 。 

1. 聚集 ， 每 个 聚集 运算 符 被 作用 在 一 个 属性 上 或 涉及 属性 的 表达 式 上 。 上 面 已 提 到 ， 这 
些 项 目 是 以 分 组 为 单位 计算 的 。 

2. 属性 ， 如 例子 中 的 studioName， 这 些 属 性 同时 在 GROUP BY 中 出 现 。 如 果 SELECT 子 句 中 
有 聚集 运算 ， 那 么 GROUP BY 子 句 中 出 现 的 属性 可 以 在 SELECT 子 句 中 以 非 聚集 的 形式 出 现 。 

虽然 ， 包 含 6ROUP BY 保留 字 的 查询 SELECT 子 句 中 通常 有 聚集 属性 和 聚集 运算 符 ， 但 其 两 
者 也 不 必 都 出 现 ， 例 如 


SELECT studioName 
FROM Movies 
GROUP BY studioName; 


这 个 查询 对 Movies 关 系 根 据 studioName 进 行 分 组 ， 并 打印 每 个 分 组 的 studioName。 无 论 
多 少 个 元 组 使 用 了 这 个 studioName， 它 只 打印 一 次 。 这 样 ， 上 面 的 查询 和 语句 
SELECT DISTINCT studioName 
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FROM Movies; 
有 同样 的 效果 。 

也 可 以 在 多 关系 查询 中 使 用 GROUP BY 子 句 。 这 种 查询 可 以 由 下 面 几 步 来 说 明 。 

1. 计算 由 FROM 和 WHERE 子 句 所 表达 的 关系 R。 也 就 是 说 ，R 是 对 FROM 子 句 中 的 关系 进行 积 
运算 后 ， 再 用 WHERE 中 的 条 件 进行 选择 操作 后 形成 的 关系 。 

2. 根据 6ROUP BY 子 句 中 的 属性 对 R 的 元 组 进行 分 组 操作 。 

3. 把 SELECT 子 句 中 的 属性 和 聚集 运算 作为 查询 结果 输出 ， 就 好 像 查 询 是 在 一 个 存储 的 关 
系 R 上 进行 的 。 

例 6.32 假定 想 要 输出 每 个 制 片 人 制作 的 电影 总 长 度 ， 那 么 需要 用 到 两 个 关系 


Movies(title, year, length, genre, studioName, producerC#) 
MovieExec(name, address, cert#, netWorth) 


因此 ， 开 始 使 用 90 连接， 要 求 两 个 关系 的 证 书号 SELECT name, SUM(1length) 
(cer 泵 和 producerCc#) 相同 。 这 一 步 给 出 了 一 个 关 FROM MovieExec, Movies 
系 ， 该 关系 中 每 一 个 MovieExec 元 组 和 Movies 中 的 ee gi = cert# 
元 组 连接 ， 条 件 是 MovieExec 元 组 表示 的 人 是 这 些 
影 的 制 片 人 。 注 意 不 是 制 片 人 的 MovieExec 元 组 图 6-13 计算 每 个 制 片 人 的 电影 长 度 之 和 
不 会 和 任何 Movies 中 的 元 组 配对 的 ， 也 就 不 会 在 结果 关系 中 出 现 。 现 在 ， 可 以 根据 制 片 人 的 
名 字 对 从 关系 中 选择 出 来 的 元 组 进行 分 组 。 最 后 ， 对 分 组 中 电影 的 长 度 求 和 。 图 6-13 给 出 了 
该 查询 。 口 
6.4.6 分组、 聚集 和 空 值 
当 元 组 含有 空 值 时 ， 要 记 住 下 面 几 条 规则 
。 空 值 在 任何 聚集 操作 中 都 被 忽视 。 它 既 不 对 求 和 和 、 取 平均 和 计数 作 贡 献 ， 也 不 能 是 某 列 
的 最 大 值 或 最 小 值 。 例 如 ，COUNT(*) 是 某 个 关系 中 所 有 的 元 组 数目 之 和 ， 但 是 COUNT(A) 
却 是 4 属性 非 空 的 元 组 个 数 之 和 。 
。 另 一 方面 ， 在 构成 分 组 时 ，NULL 值 被 作为 一 般 的 值 对 待 。 即 分 组 中 的 一 个 或 多 个 分 组 属 
性 可 以 被 赋予 NULL 值 。 
。 除 了 计数 之 外 ， 对 空 包 执行 的 聚集 操作 ， 结 果 均 为 NULL。 空 包 的 计数 结果 为 0。 
例 6.33 假设 关系 R(4, B) 只 有 一 个 元 组 ， 且 两 个 字段 的 值 均 为 NULL: 





4 B 
NULL | NULL 
则 
SELECT A, COUNT(B) 
FROM R 
GROUP BY A; 


的 结果 是 一 个 元 组 (NULL, 0)。 原 因 是 ， 当 根据 4 分 组 时 ， 只 有 一 个 NULL 值 的 分 组 。 该 分 组 有 一 
个 元 组 ， 属 性 3 的 值 为 NWLL， 于 是 对 值 {NULL} 的 包 进 行 计数 。 由 于 包 的 计数 不 对 NULL 进 行 计 
数 ， 所 以 该 计数 为 0。 

另 一 方面 ， 

SELECT A, SUM(B) 


FROM R 
GROUP BY A; 
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的 结果 是 一 个 元 组 (NULL， NULL ) 。 原 因 如 下 : NULL 值 的 分 组 有 一 个 元 组 ， 即 R 中 仅 有 的 一 个 
元 组 。 但 是 ， 当 尝试 对 该 分 组 的 属性 8 的 值 进 行 求 和 时 ， 却 发 现 只 有 ULL， 而 NULL 对 求 和 没 
有 贡献 。 因 此 ， 这 是 对 空 包 进行 求 和 ， 甚 结果 被 定义 为 NULL。 口 


SQL 查询 中 的 子 句 顺 序 


到 目前 为 止 , 已 经 讨论 了 六 种 可 能 出 现在 select-from-where 查 询 中 的 子 句 。 它 们 分 别 是 : 


pa FROM, WHERE、 GROUP BY HAVING 和 ORDER BY。 ge Aye 
是 必须 的 ， 而且， 其 他 子 名 车 出 现 的 话 ， 也 者 应 该 按照 上 面 给 定 的 顺序 出 





6.4.7 HAVING 子 句 

假设 不 希望 查询 所 有 在 例子 6.32 结 果 中 出 现 的 制 片 人 。 此 时 ， 元 组 在 分 组 之 前 就 按 某 种 方 
式 加 上 限制 ， 使 得 不 需要 的 分 组 为 空 。 例 如 ， 如 果 只 统计 资产 在 $10 000 000 以 上 制 片 人 制作 
的 电影 长 度 ， 可 将 图 6-13 的 第 三 行 改 为 

WHERE producerC# = cert# AND networth > 10000000 

另外 ， 如 果 需 要 对 基于 某 些 分 组 聚集 的 性 质 选 择 分 组 ， 可 以 在 6ROUP BY 子 句 后 面 加 上 一 
个 HAVING 子 句 。 后 者 由 保留 字 HAVING 后 跟 一 个 分 组 的 条 件 组 成 。 

例 6.34 ”假定 需要 输出 至 少 曾 在 1930 以 前 制作 过 一 部 电影 的 制 片 人 制作 的 电影 总 长 度 ， 
则 需 在 图 6-13 后 面 加 上 如 下 子 句 ; 

HAVING MIN(year) < 1930 
最 后 的 查询 在 图 6-14 中 给 出 。 该 查询 将 会 去 掉 那 些 year 字 段 值 大 于 或 等 于 1930 的 元 组 分 组 。 口 

应 当 记 住 下 面 几 条 关于 HAVIN6 子 句 的 规则 : 


。HAVING 子 句 中 的 聚集 只 应 用 到 正在 检测 的 se 
FROM MovieExec, Movies 
分 组 上 。 WHERE producerC# = cert# 


。 所 有 FROM 子 句 中 关系 的 属性 都 可 以 在 GROUP BY name 
HAVING 子 句 中 用 聚集 运算 ， 但 是 只 有 出 现在 HAVING MIN(year) < 1930; 
GROUP BY 子 句 中 的 属性 ， 才 可 能 以 不 聚集 图 6-14 计算 各 个 早期 制 片 人 的 电影 长 度 和 
的 方式 出 现在 HAVING 子 名 中 〈 和 SELECT 子 句 同样 的 规则 ) 。 


6.4.8 习题 

习题 6.4.1 用 SQL 写 出 习题 2.4.1 中 的 查询 ， 消 除 结果 中 重复 的 元 组 。 

习题 6.4.2 用 SQL 写 出 习题 2.4.3 中 的 查询 ， 消 除 结果 中 重复 的 元 组 。 

! 习 题 6.4.3 ”查看 习题 6.3.1 的 答案 ， 看 看 你 写 的 查询 结果 中 是 否 有 重复 元 组 出 现 。 若 有 ， 重 写 该 查询 以 
消除 重复 ， 若 无 ， 写 出 一 个 不 使 用 子 查询 的 结果 同样 不 含 重复 的 查询 。 

! 习 题 6.4.4 按 习 题 6.4.3 的 要 求 重 做 习题 6.3.2 。 

! 习 题 6.4.5 ”在 例 6.27 中 ， 对 于 “ 找 出 Harrison Ford 出 演 的 电影 的 制 片 人 ”这 一 查询 的 不 同 版 本 ， 虽 然 其 
产生 的 结果 集合 相同 ， 但 是 其 结果 的 包 不 同 。 考 虑 例 6.22 中 的 查询 版 本 ， 其 在 FROM 子 句 中 使 用 了 一 个 
子 查询 。 这 个 查询 版 本 是 否 会 产生 重复 ? 如 果 会 ， 为 什么 ? 

习题 6.4.6 根据 习题 2.4.1 的 数据 库 模式 和 数据 写 出 后 面 的 查询 并 求 出 查询 结果 。 

Product (maker, model, type) 
PC(model, speed, ram, hd, price) 


Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 
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a) 查询 PC 的 平均 速度 。 
b) 查询 价格 高 于 $1000 的 笔记 本 电脑 的 平均 速度 。 
c) 查询 厂商 “A” 生 产 的 PC 的 平均 价格 。 
! d) 查询 厂商 “D” 生 产 的 PC 和 笔记 本 电脑 的 平均 价格 。 
e) 查询 每 种 不 同 速度 的 PC 的 平均 价格 。 
!f) 查询 每 家 厂商 生产 的 笔记 本 电脑 的 屏幕 尺寸 的 平均 值 。 
! g) 查询 至 少 生 产 三 种 不 同型 号 PC 的 制造 商 。 
!h) 查询 每 个 销售 PC 的 厂商 的 PC 的 最 高 价格 。 
!i) 查询 每 种 高 于 2.0 速 度 的 PC 的 平均 价格 。 
1) 查询 所 有 生产 打印 机 的 厂商 生产 的 PC 的 硬盘 容量 的 平均 大 小 。 
习题 6.4.7 基于 习题 2.4.3 给 出 的 数据 库 模式 和 数据 写 出 后 面 的 查询 语句 以 及 查询 结果 。 
Classes(class, type, country, numGuns, bore, displacement) 
Ships (name, class, launched) 
Battles (name, date) 
DOutcomes(ship, battle, result) 
a) 查询 军舰 类 型 的 数目 。 
b) 查询 军舰 的 所 有 类 型 的 平均 火炮 数量 。 
!c) 查询 军舰 的 平均 火炮 数量 。 注 意 ，b) 和 c) 的 不 同 在 于 : 在 计算 均值 的 时 候 ， 是 使 用 军舰 的 数目 还 
是 军舰 的 类 型 的 数目 。 
!d) 查询 每 个 类 型 (class) 的 第 一 稻 船 下 水 的 年 份 。 
le) 查询 每 个 类 型 在 战斗 中 被 击 沉 的 船 的 数目 。 
149) 查询 至 少 有 3 艘 船 的 类 型 在 战斗 中 被 击 沉 的 船 的 数目 。 
!lg) 军舰 火炮 使 用 的 炮弹 的 重量 (以 磅 为 单位 ) 大 约 是 火炮 的 口径 (以 英寸 为 单位 ) 的 一 半 。 查 询 每 
个 国家 的 军舰 的 炮弹 重量 的 平均 值 。 
习题 6.4.8 ” 例 5.10 给 出 了 一 个 查询 的 例子 :“ 找 出 每 个 至 少 演 过 三 部 影片 的 影星 最 早出 演 影片 的 年 份 。 
该 例 使 用 y 运 算 符 写 出 该 查询 ， 现 在 请 用 SQL 写 出 该 查询 。 
! 习 题 6.4.9 ”扩展 关系 代数 中 的 y 运 算 符 没 有 一 个 特征 对 应 于 SQL 中 的 HAVING 子 句 。 是 否 能 在 关系 代数 中 
模仿 包含 HAVIN6 子 句 的 SQL 查询 ? 若 能 ， 一 般 应 怎样 做 ? 


6.5 数据 库 更 新 


到 目前 为 止 本 章 的 讨论 都 集中 于 一 般 的 SQL 查询 形式 ， 即 select-from-where 句 型 。 还 有 许 
多 其 他 形式 的 不 返回 查询 结果 的 句子 ， 这 些 句 子 只 改变 数据 库 的 状态 。 在 本 节 中 ， 将 具体 讨 
论 如 下 三 种 类 型 的 句子 。 

1. 插入 元 组 到 关系 中 去 。 

2. 从 关系 中 删除 元 组 。 

3. 修改 某 个 元 组 的 某 些 字段 的 值 。 
这 三 类 操作 统称 为 更 新 (modification) 操作 。 
6.5.1 插入 

插入 语句 的 基本 形式 为 : 

INSERT INTO R(Ai,... ,An) VALUES (v1,... ,vn); 


该 插入 将 创建 一 个 元 组 ， 其 属性 4A; 的 值 是 v:，i = 1, 2,…,n。 如 果 属 性 列表 不 包括 关系 R 中 
所 有 的 属性 ， 那 么 创建 的 元 组 会 对 那些 没有 赋值 的 属性 赋予 一 个 默认 的 值 。 
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例 6.35 如果 要 把 Sydney Greenstreet 加 到 The Maltese Falcon 演 员 列 表 中 去 ， 可 以 这 样 写 
插入 语句 : 


1) INSERT INTO StarsIn(movieTitle, movieYear, starName) 
2) VALUES(’The Maltese Falcon’, 1942, ’Sydney Greenstreet'’); 


该 语句 的 执行 结果 是 将 具有 第 (2) 行 三 个 字段 值 的 元 组 插入 到 关系 StarsIn 中 。 由 于 关系 StarsIn 中 所 
有 的 属性 都 在 第 (1) 行 列 出 ， 所 以 也 就 没有 必要 使 用 默认 的 属性 值 。 第 (2) 行 的 值 和 第 (1) 行 的 属性 按 给 
定 的 顺序 对 应 。 因 此 “The Maltese Falcon” 成 为 属性 movieTitle 的 值 ， 其 他 的 也 是 如 此 类 推 。 ” 口 

如 果 像 例 6.35 那 样 ， 关 系 的 所 有 属性 值 都 给 出 了 ， 那 么 可 以 省 掉 跟 在 关系 名 后 面 的 属性 列 
表 。 其 插入 语句 可 以 写成 

INSERT INT0 StarsIn 

VALUES('The Maltese Falcon’, 1942, ’Sydney Greenstreet’); 

但 是 ， 当 省 略 属性 列表 时 ， 一 定 要 保证 提供 的 属性 值 的 顺序 和 关系 属性 的 标准 顺序 一 致 。 
。 如 果 不 能 确定 属性 声明 时 的 排列 顺序 ， 最 好 在 INSERT 句 子 中 按照 VALUES 子 句 中 属性 值 
的 顺序 给 出 属性 列表 。 

上 面 给 出 的 简单 INSERT 语 名 仅仅 能 插入 一 个 元 组 到 关系 中 去 。 除 了 明确 地 指定 值 来 插入 
一 个 元 组 以 外 ， 还 可 以 通过 使 用 子 查询 往 关 系 中 插入 计算 出 的 元 组 集合 。 该 子 查询 语句 替换 
上 面 给 出 的 INSERT 语 句 中 的 保留 字 VALUES 和 后 面 的 元 组 表达 式 。 

例 6.36 ” 往 关 系 Studio(name，address，presC#) 中 添加 在 关系 Movies(title,， year， 
length ,genre,studioName，producerC#) 中 提 到 的 、 但 没有 在 Studio 出 现 的 所 有 的 电影 公司 。 由 
于 Movies 中 没有 给 出 电影 公司 的 地 址 和 制 片 经 理 ， 插 入 到 Studio 的 元 组 的 属性 address 和 presC# 
只 好 使 用 NULL 值 。 图 6-15 给 出 了 一 种 插入 方式 。 


1) INSERT INT0 Studio(name) 


和 其 他 的 嵌 套 SQL 语 句 一 样 ， 图 6-15 从 里 层 往 SELECT DISTINCT studioName 
外 分 析 较 容易 。 第 (5) 和 第 (6) 行 生成 关系 Studio 中 FROM Movies 
所 有 的 电影 公司 的 名 字 。 第 (4) 行 检查 来 自 Movies ee 





关系 的 电影 公司 的 名 字 是 否 包含 在 Studio 中 ，。 FROM Studio); 

这 样 ， 从 第 (2) 到 第 (6) 行 输出 存在 于 关系 ; 
Movies 中 但 不 在 Studio 中 的 电影 公司 名 字 的 集合 。 本 
第 (2) 行 的 DISTINCT 保 留 字 保 证 无 论 拍 过 多 少 部 电影 ,每 个 电影 公司 在 集合 中 只 出 现 一 次 。 最 后 ， 
第 (1) 行 语句 把 这 些 电影 公司 插入 到 关系 studio 中 ， 属 性 address 和 presCc# 用 NULL 值 填充 。 口 
插入 的 时 机 选择 

SQL 标准 需要 元 组 被 插入 到 关系 之 前 要 完成 对 查询 的 计算 。 例 如 ， 在 图 6-15 中 ， 第 (2) 
到 第 (6) 行 的 查询 计算 应 当 在 执行 第 (1) 行 的 插入 前 完成 。 这 样 插入 到 第 (1) 行 Studio 中 的 新 元 
组 就 不 会 影响 到 第 (4) 行 的 条 件 。 

这 个 例子 比较 特殊 ， 插 入 是 否 要 等 到 查询 完全 计算 结束 后 对 结果 没什么 影响 。 但 是 ， 
假设 从 图 6-15 中 去 掉 第 (2) 行 的 DISTINCT 保 留 字 。 如 果 在 插入 前 计算 第 (2) 到 第 (6) 行 的 查询 ， 
结果 会 导致 某 个 多 次 出 现在 Movies 中 的 新 电影 公司 的 名 字 在 查询 结果 中 多 次 出 现 ， 并 多 次 
插入 到 关系 Studio 中 去 。 然 而 ， 如 果 DBMS 在 计算 第 (2) 到 第 (6) 行 查询 的 同时 将 找到 的 新 的 
电影 公司 插入 到 Studio 中 去 (按照 标准 ， 这 样 做 有 不 正确 的 地 方 )， 那 么 新 的 电影 公司 就 不 
会 被 重复 插入 。 而 且 ， 一 旦 新 的 电影 公司 添加 一 次 ， 它 的 名 字 就 不 会 满足 第 (4) 到 第 (6) 行 的 
条 件 ， 也 就 不 会 在 第 (2) 到 第 (6) 行 的 查询 结果 中 再 次 出 现 。 
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6.5.2 删除 
删除 语句 的 形式 为 
DELETE FROM R WHERE < 条 件 >: 
执行 该 语句 的 结果 是 每 个 满足 条 件 的 元 组 将 从 关系 R 中 删 掉 。 
例 6.37 从 关系 
StarsIn(movieTitle, movieYear, starName) 
删 掉 Sydney Greenstreet 出 演 电 影 The Maltese Falcon 这 一 事实 。 删 除 语句 为 
DELETE FROM StarsIn 
WHERE movieTitle = ’The Maltese Falcon’ AND 
movieYear = 1942 AND 
starName = ’Sydney Greenstreet’; 
注意 ， 和 例 6.35 中 的 插入 语句 不 同 ， 不 能 简单 地 指定 把 某 个 元 组 删 掉 。 必 须 通 过 WHERE 子 句 明 
确 地 描述 要 删除 的 元 组 。 口 
例 6.38 这 里 是 删除 语句 的 另 一 个 例子 。 这 次 是 使 用 条 件 语 句 从 关系 
MovieExec(name, address, cert#, netWorth) 
中 一 次 删 掉 多 个 元 组 。 给 出 的 条 件 可 能 有 多 个 元 组 满足 。 语 句 
DELETE FROM MovieExec 
WHERE netWorth < 10000000; 
删 掉 所 有 的 资产 低 于 一 千 万 美元 的 制 片 经 理 。 口 


6.5.3 修改 

虽然 可 以 把 元 组 的 插入 和 删除 均 看 作对 数据 库 的 “修改 "， 但 SQL 中 的 修改 (update) 是 
对 数据 库 的 一 种 特殊 类 型 的 改变 : 即 数据 库 中 已 经 存在 的 一 个 或 多 个 元 组 的 某 些 字段 的 值 发 
生 改 变 。 修 改 语句 的 一 般 形式 为 : 

UPDATE R SET < 新 值 赋值 > WHERE < 条 件 >; 


每 一 个 新 值 赋值 由 一 个 属性 、 一 个 等 号 和 一 个 表达 式 组 成 。 若 有 不 止 一 个 赋值 ， 就 用 去 
号 隔 开 。 该 语句 的 效果 是 ， 找 出 所 有 满足 条 件 的 元 组 ， 然 后 对 每 个 元 组 计算 出 赋值 表达 式 的 
结果 ， 并 根据 R 的 对 应 属性 对 元 组 的 字段 进行 赋值 。 

例 6.39 修改 关系 

MovieExec(name, address, cert#, netWorth) 

在 每 个 是 电影 公司 制 片 经 理 的 电影 导演 名 字 前 加 上 称呼 Pres.。MovieExec 中 待 修改 元 组 满足 
的 条 件 是 导演 的 证 书号 出 现在 关系 Studio 中 某 些 元 组 的 presC# 字 段 值 上 。 该 修改 语句 为 : 


1) UPDATE MovieExec 
2) SET name = ’Pres. ’ || name 
3) WHERE cert# IN (SELECT presC# FROM Studio); 


第 (3) 行 检查 MovieExec 中 的 某 个 证 书号 是 否 作为 关系 Studio 中 某 个 制 片 经 理 的 证 书号 出 现 。 
第 (2) 行 对 选 定 的 元 组 执行 修改 操作 。 前 面 讲 过 1 运算 符 表 示 字 符 串 的 连接 ， 所 以 第 
(2) 行 的 = 符号 后 面 的 表达 式 在 该 元 组 的 name 字 段 的 旧 值 前 面 加 上 了 字符 串 Pres .和 一 个 空 
格 。 新 的 字符 串 成 为 该 元 组 的 name 字 有 段 的 新 值 ， 效 果 是 把 “Pres. ”加 在 了 name 字 段 的 
旧 值 前 面 。 口 
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6.5.4 习题 


习题 6.5.1 根据 习题 2.4.1 给 出 的 数据 库 模式 ， 写 出 下 面 的 数据 库 更 新 。 描 述 对 该 习题 数据 更 新 后 的 结果 。 

Product (maker, model, type) 

PC(model, speed, ram, hd, price) 

Laptop (model, speed, ram, hd, screen, price) 

Printer(model, color, type, price) 

a) 通过 两 条 INSERT 语 句 在 数据 库 中 添加 如 下 信息 : 厂商 C 生 产 的 型 号 为 1100 的 PC， 其 速度 为 3:2， 
RAM 容 量 大 小 为 1024， 硬盘 容 量 大 小 为 180， 售 价 为 $2499。 

!b) 加 入 如 下 信息 : 对 于 数据 库 中 的 每 台 PC， 都 有 一 台 与 其 具有 相同 的 生产 厂商 、 速 度 、RAM 容 量 、 
硬盘 容量 ， 且 具有 一 个 17 英 寸 的 屏幕 ， 型 号 大 于 1100， 价 格 高 于 500 美 元 的 笔记 本 电脑 。 

c) 删除 所 有 硬盘 容量 低 于 100GB 的 PC。 

d) 删除 所 有 不 生产 打印 机 的 厂商 生产 的 笔记 本 电脑 。 

e) 厂商 4 收 购 了 厂商 8。 将 所 有 8 生产 的 产品 改 为 由 4 生产 。 

f) 对 于 每 台 PC， 将 其 RAM 容 量 加 倍 ， 并 将 其 硬盘 容量 增加 60GB。!( 切 记 UPDATE 语 句 可 以 同时 修改 
多 个 属性 的 值 。) 

!g) 把 厂商 8 生产 的 笔记 本 电脑 的 屏幕 尺寸 增加 一 英寸 并 将 价格 下 调 $100。 

习题 6.5.2 ”根据 习题 2.4.3 给 出 的 数据 库 模 式 ， 写 出 下 面 的 数据 库 更 新 操作 。 描 述 对 该 习题 的 数据 执行 

更 新 后 的 效果 。 

Classes(class, type, country, numGuns, bore, displacement) 

Ships(name, class, launched) 

Battles(name, date) 

Dutcomes(ship, battle, result) 

a) 两 笨 Nelson 类 型 的 英国 军舰 一 Nelson 号 和 Rodney 号 一 一 均 在 1927 年 下 水 ， 均 具有 16 英 寸 口径 的 
火炮 ， 排 水 量 均 为 34 000 吨 。 把 这 些 信 息 揪 入 数据 库 中 。 

b) 三 艘 Vittorio Veneto 类 型 的 意大利 军舰 中 的 两 笨 一 一 Vitorio Veneto 号 和 Italia 号 一 一 在 1940 年 下 
水 ; 第 三 艘 该 型 军舰 Roma 号 在 1942 年 下 水 。 每 艘 该 型 军舰 有 9 门 15 英 寸 口径 火炮 ， 排 水 量 为 
41 000 吨 。 把 这 些 信息 插入 数据 库 中 。 

c) 从 Ships 中 删除 所 有 在 战斗 中 被 击 沉 的 军舰 。 

d) 修改 关系 C1asses， 使 得 火炮 口径 使 用 厘米 作为 单位 (1 英寸 =2.5 厘 米 )， 排 水 量 使 用 公制 吨 。(1 
公制 吨 =1.1 吨 )。 

e) 删除 所 有 军舰 少 于 3 艘 的 类 型 。 


6.6 SQL 中 的 事务 


目前 ， 在 数据 库 上 的 操作 模型 是 用 户 查 询 或 更 新 数据 库 。 这 样 ， 数 据 库 上 的 操作 一 次 只 
执行 一 个 ， 一 个 操作 留 下 的 数据 库 状 态 正 是 下 一 个 操作 所 要 起 作用 的 。 甚 至 ， 假 定 操作 的 执 
行 是 作为 一 个 实体 (“原子 性 地 ”)。 也 就 是 说 操作 过 程 中 硬件 和 软件 都 不 会 出 错 ， 不 会 留 下 操 
作 的 结果 不 能 解释 的 数据 库 状态 。 

实际 情况 比 这 更 复杂 。 首 先 应 考虑 是 什么 导致 数据 库 处 于 这 样 一 种 状态 : 它 不 能 反映 在 
其 上 执行 的 操作 ， 接 着 考虑 SQL 提供 给 用 户 的 工具 ， 以 确保 不 会 出 现 这 些 问 题 。 


6.6.1 可 串 行 化 
在 像 网 络 服务 (Web Service) 、 银 行业 务 或 机 票 预订 这 样 的 应 用 中 ， 数 据 库 中 可 能 每 秒 钟 
执行 上 百 个 操作 。 这 些 操 作 由 成 千 上 万 的 地 点 启动 ， 如 桌面 电脑 或 自动 取款 机 。 完 全 可 能 有 
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两 个 操作 影响 同一 个 银行 账目 或 航班 ， 并 且 这 些 操 作 在 时 间 上 重 倒 。 如 果 出 现 这 种 情况 ， 它 
们 可 能 以 奇怪 的 方式 互相 影响 。 

如 果 完 全 不 约束 DBMS 对 数据 库 进行 操作 的 顺序 ， 那 么 可 能 会 出 现 错误 ， 这 里 有 一 个 例 
子 。 这 个 例子 包含 一 个 与 人 交互 的 数据 库 ， 而 举 这 个 例子 的 目的 是 为 了 说 明 对 可 能 出 现 相互 
影响 的 事件 的 序列 进行 控制 的 重要 性 。 但 是 ，DBMS 不 会 对 “大 ”到 包含 等 待 用 户 做 出 选择 
的 时 间 进 行 控制 。DBMS 控 制 的 事件 序列 仅 包含 SQL 语 句 的 执行 。 

例 6.40 典型 的 航空 公司 为 顾客 提供 一 个 选择 航班 座位 的 网 络 界 面 ， 界 面 显示 空闲 座位 分 
布 图 ， 而 分 布 图 的 数据 是 从 航空 公司 数据 库 中 获得 。 可 能 有 一 个 如 下 关系 : 

Flights(fltNo, fltDate, seatNo, seatStatus) 

根据 这 个 关系 ， 可 以 提交 对 该 关系 的 查询 ， 

SELECT seatNo 

FROM Flights 


WHERE fltNo = 123 AND fltDate = DATE "2008-12-25， 
AND seatStatus = ’available’; 


航班 号 和 日 期 是 示例 数据 ， 实 际 上 可 以 从 用 户 的 上 一 个 交互 获得 。 
当 顾 客 点 击 一 个 空 座 ， 比 如 说 224 时 ， 这 个 座位 就 被 他 预订 了。 于是， 数据 库 被 一 个 修改 
语句 更 新 ， 如 : 


UPDATE FIights 
SET seatStatus = ’occupied’ 
WHERE fltNo = 123 AND fltDate = DATE :2008-12-25) 
AND seatNo = ’22A’; 
但 是 ， 可 能 预订 2008 年 12 月 25 日 航班 123 座 位 
的 并 非 仅 有 这 一 个 顾客 。 与 此 同时 ， 可 能 另 一 个 





顾客 已 经 看 到 了 座位 分 布 图 ， 而 且 他 也 看 到 了 座 | 时 i 顾客 2 发现 

位 22A 是 空 座 。 如 果 他 也 选择 了 座位 22A， 那 么 他 座位 为 空 座 

也 认为 自己 已 经 预订 到 了 座位 22A。 这 些 事件 的 时 ead 

间 如 图 6-16 所 示 。 口 i 
从 例 6.40 中 可 见 ， 这 两 个 操作 的 每 一 个 都 可 位 已 被 占有 


以 正确 地 执行 ， 但 是 全 局 结果 不 对 : 两 个 顾客 都 
认 沪 自己 疾 得 了 庚 位 22A。 在 SQL 中 。 可 以 通过 6 两 人 怖 窜 同 | 成 国 本 证 一 须 
“事务 ”的 概念 来 解决 这 个 问题 。 非 正式 地 说 ， 事 务 是 一 组 需要 一 起 执行 的 操作 。 假 设 在 例 
6.40 中 ， 查 询 和 更 新 组 成 一 个 事务 ?。 那 么 SQL 人 允许 程序 员 规定 一 个 特定 的 事务 必须 对 于 别 的 事 
务 是 可 串 行 化 (serializable) 的 。 即 这 些 事务 必须 表现 得 好 像 它们 是 囊 行 (serially) 执行 一 一 即 
一 个 时 刻 只 有 一 个 事务 ， 相 互 之 间 没 有 重合 。 


保证 可 串 行 化 的 行为 
实际 上 要 求 操作 连续 运行 是 不 可 能 的 ， 因 为 有 着 太 多 的 操作 ， 并 需要 某 种 并 行 性 。 因 


此 ，DBMS 采 用 了 一 种 机 制 来 保证 可 串 行 化 行为 。 即 使 操作 不 是 连续 的 ， 对 用 户 而 言 其 结 
果 看 起 来 仍 好 像 操 作 是 在 连续 执行 





日 但是， 不 能 轻率 地 组 成 一 个 包含 一 个 用 户 、 甚 或 一 台 不 属于 航空 公司 (如 旅游 公司 ) 的 计算 机 的 事务 操作 。 
必须 采用 另 一 种 机 制 来 处 理 包 含 数据 库 外 的 操作 的 事件 序列 。 
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对 于 DBMS， 一 个 普通 的 方式 是 锁定 (lock) 数据 库 的 元 素 防止 被 两 个 函数 同时 访问 。 
1.2.4 节 提 到 了 锁 机 制 ， 有 一 种 在 DBMS 中 实现 锁 的 粗 泛 的 技术 。 例 如 ， 如 果 例 6.40 中 的 事 


务 锁定 了 涉及 关系 F1ights 的 其 他 事务 ， 那 么 没有 访问 F1ights 的 操作 可 以 和 选择 座位 的 事 
务 并 行 执行 ， 但 是 不 能 再 有 其 他 的 座位 选择 操作 的 调用 并 行 执行 。 





明显 地 ， 如 果 座 位 选择 操作 的 两 个 调用 是 串 行 执行 的 〈 或 可 串 行 化 的 ) ， 那 么 就 不 会 出 现 
刚才 看 到 的 那 种 错误 。 一 个 顾客 的 调用 首先 开始 执行 。 该 顾客 看 到 座位 22A 是 空 的 ， 并 预定 了 
它 。 然 后 ， 另 一 个 顾客 的 调用 开始 执行 ， 而 座位 22A 设 有 提供 给 他 作为 选择 之 一 ， 因 为 它 已 经 
被 预订 了。 或 许 对 顾客 而 言 这 个 座位 归 谁 是 要 紧 的 ， 但 对 数据 库 而 言 至 关 重 要 的 是 一 个 座位 
只 能 被 分 配 一 次 。 


6.6.2 原子 性 

如 果 两 个 或 多 个 数据 库 操作 在 同一 时 间 执 行 ， 除 了 可 能 出 现 不 可 串 行 化 的 行为 之 外 ， 在 
一 个 操作 执行 过 程 中 出 现 硬件 或 软件 “崩溃 ”的 话 ， 这 个 操作 有 可 能 使 那个 数据 库 置 于 不 可 
接受 的 状态 。 这 里 有 一 个 例子 说 明 会 出 现 什么 问题 。 和 例 6.40 一 样 ， 要 记 住 实际 的 数据 库 系 
统 不 允许 在 正确 设计 的 程序 中 出 现 这 种 错误 。 

例 6.41 现在 来 看 另 一 个 通常 的 数据 库 : 银行 的 账目 记录 。 可 以 通过 

Accounts (acctNo ，balance) 
来 表示 这 种 情况 。 

考虑 从 账户 123 向 账户 456 转 账 100 美 元 的 操作 。 可 以 先 检查 账户 123 中 是 否 至 少 有 100 美 元 ， 
若 有 ， 执 行 以 下 两 个 步骤 : 

1. 通过 如 下 SQL 修改 语句 向 账户 456 加 上 100 美 元 : 


UPDATE Accounts 
SET balance = balance + 100 
WHERE acctNo = 456; 


.通过 如 下 SQL 修改 语句 从 账户 123 减 去 100 美 元 ; 
UPDATE Accounts 


SET balance = balance - 100 
WHERE acctNo = 123; 


现在 ， 考 虑 如 果 在 步骤 1 之 后 和 步骤 2 之 前 发 生 故 障 会 如 何 。 可 能 是 计算 机 停止 运转 ， 或 
者 是 数据 库 和 正在 执行 转账 的 处 理 器 之 间 的 网 络 连接 出 现 故障 。 然 后 ， 数 据 库 处 于 如 下 状态 ; 
钱 已 经 被 转 入 第 二 个 账户 ， 但 这 笔 钱 尚 未 从 第 一 个 账户 减 去 。 银 行 实际 已 经 白 送 了 那 笔 本 来 
应 该 转账 的 钱 。 口 

例 6.41 说 明 的 问题 是 数据 库 操 作 的 某 些 组 合 (如 该 例 中 的 两 个 修改 ) 需要 原子 地 
(atomically) 执行 ， 即 它们 要 么 都 执行 要 么 都 不 执行 。 例 如 ， 一 个 简单 的 解决 方案 是 将 对 数 
据 库 的 所 有 修改 都 在 一 个 本 地 工作 区 中 执行 ， 而 且 只 有 在 所 有 工作 都 完成 后 才 将 修改 提交 
(commit) 到 数据 库 ， 于 是 所 有 改变 成 为 数据 库 的 一 部 分 ， 并 且 对 其 他 操作 可 见 。 


6.6.3 事务 

6.6.1 节 和 6.6.2 节 提出 的 对 可 串 行 化 和 原子 性 问题 的 解决 方案 将 把 数据 库 操 作 分 组 为 事务 
(Transaction)。 事 务 是 必须 原子 地 执行 的 一 个 或 多 个 数据 库 操作 的 集合 ， 即 要 么 所 有 操作 都 执 
行 要 么 所 有 操作 都 不 执行 。 另 外 ，SQL 要 求 默 认 事务 以 可 串 行 化 方式 执行 。DBMS 可 以 人 允许 
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用 户 对 两 个 或 多 个 事务 的 操作 交叉 指定 一 个 不 那么 严格 的 约束 条 件 。 后 面 几 节 将 讨论 对 可 串 
行 化 条 件 的 修改 。 

当 使 用 基本 SQL 界面 (generic SQL interface) ， 即 使 用 方便 人 们 提交 查询 和 别 的 SQL 语 铝 
的 工具 时 ， 和 每 条 语句 自身 就 是 一 个 事务 。 不 过 ，SQL 人 允许 程序 员 将 几 条 语句 组 成 一 个 事务 。 
SQL 命令 START TRANSACTION 可 用 来 标记 事务 的 开始 。 有 两 种 结束 事务 的 方式 : 

1. SQL 语句 COMMIT 使 得 事务 成 功 结束 。 由 这 条 SQL 语句 或 自 当 前 事务 开始 以 来 的 语句 引 
起 的 任何 对 数据 库 的 修改 都 被 持久 地 建立 在 数据 库 中 ， 即 它们 被 提交 了 (committed) 。 在 
COMMIT 语 句 执 行 之 前 ， 改 变 是 试探 性 的 ， 对 其 他 事务 可 不 可 见 均 有 可 能 。 

2. SQL 语句 ROLLBACK 使 得 事务 天 折 (abort) 或 不 成 功 结束 。 任 何 由 该 事务 的 SQL 语句 所 
引起 的 修改 都 被 撤销 ， 即 它们 被 回 潜 (rolled back) ， 所 以 它们 不 会 持久 地 出 现在 数据 库 中 。 


事务 中 数据 库 如 何 变 化 
不 同 的 系统 可 以 采用 不 同 的 方法 实现 事务 。 事 务 执 行 时 ， 它 可 能 会 引起 数据 库 的 变化 。 
如 果 事 务 天 折 ， 那 么 (如果 没有 预防 ) 这 些 变 化 可 能 已 经 被 其 他 的 事务 看 到 。 对 数据 库 系 
统 而 言 ， 最 普通 的 方式 是 锁定 被 改变 的 项 目 直 到 选择 了 COMMIT 或 者 ROLLBACK， 这 样 就 阻止 


了 其 他 事务 看 到 这 些 暂时 的 变化 。 如 果 用 户 想 让 事务 以 串 行 化 方式 运行 ， 那 么 一 定 使 用 了 
锁 或 者 其 他 等 效 方法 。 

但 是 ， 如 在 6.6.4 节 看 到 的 ，SQL 提 供 了 关于 数据 库 暂 时 变化 的 几 个 选项 。 被 改变 的 数 
据 有 可 能 没有 被 加 锁 并 且 可 见 ， 即 使 随后 的 回 滚 使 变化 消失 也 如 此 。 它 是 由 事务 的 设计 者 
来 决定 是 否 需要 避免 暂时 变化 的 可 见 性 。 

例 6.42 ”假设 要 把 例 6.41 中 的 转账 操作 变 成 一 个 事务 。 在 访问 数据 库 之 前 要 执行 START 
TRANSACTION。 如 果 发 现 资金 不 够 进行 转账 ， 那 么 执行 ROLLBACK 命 令 。 但 是 ， 如 果 有 足够 的 
资金 ， 那 么 执行 那 两 条 修改 语句 ， 然 后 执行 COMMIT。 口 

应 用 与 系统 产生 的 回 滚 


在 事务 讨论 中 ， 假 定 事务 提交 还 是 回 滚 由 产生 该 事务 的 应 用 程序 来 决定 。 也 就 是 说 ， 和 
例 6.44 和 6.42 一 样 ， 一 个 事务 可 以 执行 多 个 数据 库 操作 ， 然 后 决定 是 通过 发 出 COMMIT 来 使 得 








修改 持久 化 ， 还 是 通过 发 出 ROLLBACK 来 返回 初始 状态 。 但 是 ， 系 统 也 可 以 执行 事务 回 滚 ， 
以 保证 事务 原子 地 执行 ， 并 且 使 得 事务 在 其 他 并 发 事务 或 系统 故障 出 现时 符合 为 其 指定 的 隔 
离 层次 。 典 型 情况 是 ， 如 果 系 统 “ 天 折 ” 一 个 事务 ， 那 么 会 产生 一 个 特殊 的 错误 代码 或 异常 。 
如 果 应 用 程序 希望 确保 事务 成 功 执行 ， 就 必须 捕捉 这 些 条 件 并 重启 这 个 有 问题 的 事务 。 





6.6.4 只 读 事务 

例 6.40 和 例 6.41 都 包含 一 个 先 读 然后 (可 能 ) 向 数据 库 中 写 一 些 数据 的 事务 。 这 种 事务 容 
易 出 现 可 串 行 化 问题 。 因 此 ， 在 例 6.40 中 看 到 ， 如 果 该 函数 的 两 个 调用 同时 试图 预定 同一 个 
座位 会 发 生 什么 问题 ， 而 在 例 6.41 中 看 到 ， 如 果 在 资金 转账 的 过 程 中 出 现 月 溃 又 会 发 生 什么 
问题 。 然 而 ， 当 一 个 事务 只 读数 据 而 不 写 数据 时 ， 就 可 以 更 自由 地 让 该 事务 与 别 的 事务 并 发 
执行 。 

例 6.43 假定 写 了 一 个 从 例 6.40 的 关系 Fl1ights 读 取 数 据 来 判断 某 个 座位 是 否 空闲 的 程序 。 
那么 可 以 一 次 执行 多 个 该 程序 的 调用 ， 不 用 担心 会 对 数据 库 造 成 永久 性 的 伤害 。 可 能 出 现 的 
最 坏 情 况 是 ， 在 读 取 某 个 座位 是 否 空闲 的 数据 时 ， 该 座位 正在 被 某 个 别 的 程序 预定 或 释放 。 
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因此 ， 依 赖 于 执行 该 查询 时 的 细微 差别 ， 可 能 得 到 答案 “ 空 闪 ”或 “被 占用 ”， 而 该 答案 只 在 
某 些 时 刻 有 意义 。 | 

如 果 告知 5QL 执 行 系统 当前 的 事务 是 只 读 (read-only) 事务 ， 即 它 不 会 修改 数据 库 ， 那 
么 SQL 系统 很 可 能 能 够 充分 利用 这 一 点 。 通 常 ， 多 个 访问 同一 数据 的 只 读 事务 可 以 并 行 执行 ， 
但 是 多 个 写 同 一 数据 的 事务 不 能 并 行 执行 。 

告知 SQL 系统 下 一 个 事务 是 只 读 事务 的 语句 是 ; 

SET TRANSACTION READ ONLY; 
这 条 语句 必须 在 事务 开始 之 前 执行 。 可 以 通过 如 下 语句 通知 SQL 下 一 个 事务 可 以 写 数 据 ; 

SET TRANSACTION READ WRITE; 


不 过 ， 这 个 选项 是 默认 选项 。 


6.6.5 读 脏 数据 

脏 数 据 (Dirty data) 是 表示 还 没有 提交 的 事务 所 写 的 数据 的 通用 术语 。 脏 读 (dirty read ) 
是 对 脏 数 据 的 读 取 。 读 脏 数据 的 风险 是 写 数 据 的 事务 可 能 最 终 天 折 。 如 果 这 样 ， 那 么 脏 数 据 
将 从 数据 库 中 移 走 ， 就 像 这 个 数据 不 曾 存 在 过 。 如 果 某 个 别 的 事务 读 取 了 这 个 脏 数 据 ， 那 么 
该 事务 可 能 提交 或 采取 别 的 手段 反映 它 对 脏 数据 的 了 解 。 

脏 读 有 了 时 是 要 紧 的 ， 有 时 是 无 关 紧 要 的 。 当 它 非 常 无 关 紧 要 时 ， 可 以 冒险 偶尔 脏 读 一 次 ， 
从 而 避免 

1.DBMS 用 来 防止 胜 读 所 做 的 耗 时 的 工作 。 

2. 为 了 等 到 不 可 能 出 现 脏 读 而 造成 的 并 发 性 的 损失 。 

下 面 有 一 些 例 子 说 明 当 允许 脏 读 时 可 能 出 现 什 么 情况 。 

例 6.44 再 次 考虑 例 6.41 的 转账 。 不 过 ， 假 定 转账 由 程序 P 实 现 ，P 执 行 如 下 步 又 : 

1. 将 这 笔 钱 加 到 账户 2。 

2. 检查 账户 1 是 否 有 足够 的 钱 。 

a) 如 果 没 有 足够 的 钱 ， 将 这 些 钱 从 账户 2 移 走 ， 结 束 。。 

b) 如 果 有 足够 的 钱 ， 从 账户 1 减 去 这 些 钱 ， 结 束 。 

如 果 程 序 P 是 串 行 执行 的 ， 那 么 把 钱 临 时 放 和 账户 2 是 无 关 紧 要 的 。 没 人 会 看 到 这 笔 钱 ， 
若 不 能 转账 则 减 去 这 笔 钱 。 

但 是 ,假定 可 能 有 脏 读 。 想 象 有 三 个 账户 : A1、As 和 A3， 分 别 有 100、200、300 美 元 。 假 
设 事 务 T! 执 行程 序 P 从 A1 向 4; 转账 150 美 元 。 在 大 约 同 一 时 刻 ， 事 务 7 运行 程序 P 从 42 向 4A; 转账 
250 美 元 。 事 件 序列 可 能 如 下 : 

1. 7 执行 步骤 1 将 250 美 元 加 到 4;， 现 在 43 有 550 美 元 。 

2. 也 执行 步骤 1 将 150 美 元 加 到 4:， 现 在 4 有 350 美 元 。 

3. 卫 执行 步骤 2 的 检查 ， 发 现 4; 有 足够 的 资金 (350 美 元 )， 能 够 从 A 向 4;3 转 账 250 美 元 。 

4. 刀 执行 步骤 2 的 检查 ， 发 现 4, 没 有 足够 的 资金 《100 美 元 ) ， 不 能 从 4 向 42 转 账 150 美 元 。 

5. 7 执行 步骤 2b。 从 4: 减 去 250 美 元 ，42: 现 在 有 100 美 元 ， 结 束 。 

6. 九 执 行 步骤 2a。 从 4: 减 去 150 美 元 ，42> 现 在 有 一 50 美 元 ， 结 束 。 

钱 的 总 数 没 变 ， 这 三 个 账户 仍然 总 共有 600 美 元 。 但 是 因为 了 在 上 述 六 个 步骤 中 的 第 三 步 


日 读者 应 该 知道 程序 P 试 图 执行 DBMS 的 更 典型 的 功能 。 特 别 地 ， 像 P 在 这 一 步 所 做 的 那样 ， 当 P 决 定 不必 完 
成 这 个 事务 时 ， 它 将 向 DBMS 发 出 一 个 回 潜 (天 折 ) 命令 ,让 DBMS 撤 销 P 的 执行 效果 。 
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中 读 取 了 脏 数 据 ， 所 以 导致 一 个 账户 变 为 负 值 ， 而 这 一 步 本 来 的 目的 是 检查 第 一 个 账户 是 否 
有 足够 的 资金 。 加 

例 6.45 假设 对 例 6.40 中 的 座位 选择 函数 进行 修改 。 新 方法 如 下 : 

1. 发 现 一 个 有 效 座位 ， 通 过 设置 seatStatus 为 “occupied” 来 预订 该 座位 。 若 无 空闲 座 
位 ， 结 束 。 

2. 询问 顾客 是 否 要 这 个 座位 。 若 要 ， 提 交 。 若 不 要 ， 通 过 设置 seatStatus 为 “avai1ab1e” 
来 释放 该 座位 ， 并 重复 步骤 1 以 获得 另 一 个 座位 。 

如 果 两 个 事务 几乎 同时 执行 这 个 算法 ,一 个 事务 可 能 预订 到 一 个 座位 9，$ 后 来 被 顾客 拒绝 。 
如 果 在 座位 $ 被 标记 为 已 被 占用 时 第 二 个 事务 执行 步骤 1， 那 么 该 事务 的 顾客 不 能 选择 座位 $。 

与 例 6.44 一 样 ， 问 题 是 发 生 了 脏 读 。 第 二 个 事务 看 到 一 个 由 第 一 个 事务 所 写 的 元 组 (5 被 
标记 为 已 被 占用 ) ， 而 该 元 组 后 来 又 被 第 一 个 事务 修改 。 口 

脏 读 有 多 重要 ? 在 例 6.44 中 ， 它 很 重要 ， 它 导致 一 个 账户 变 为 负 值 ， 而 这 种 情况 明显 是 禁 
止 出 现 的 。 例 6.45 中 ， 问 题 似 乎 不 太 严 重 。 实 际 上 ， 第 二 个 顾客 可 能 没 获 得 他 喜欢 的 座位 ， 
其 或 可 能 被 告知 没有 座位 了 。 不 过 ， 后 一 种 情况 中 ， 再 次 执行 该 事务 几乎 肯定 会 发 现 座 位 5S 是 
空 闪 的 。 因 此 ， 在 实现 座位 选择 函数 时 允许 脏 读 ， 以 降低 预订 请 求 的 平均 处 理 时 间 是 值得 的 。 

使 用 6.6.4 节 的 SET TRANSACTION 语 句 ，SQL 人 允许 指 定 一 个 给 定 的 事务 是 否 可 以 脏 读 。 对 于 
像 例 6.45 中 描述 的 事务 ， 合 适 的 形式 为 : 

1) SET TRANSACTION READ WRITE 

2) ISOLATION LEVEL READ UNCOMMITTED; 

上 述 语句 做 了 两 件 事 : 

1. 第 (1) 行 声明 事务 可 以 写 数 据 。 

2. 第 (2) 行 声明 事务 用 读 未 提交 (read-uncommitted) 的 “隔离 层次 ”运行 。 即 允许 事务 读 
脏 数 据 。6.6.6 节 将 讨论 四 种 隔离 层次 。 到 目前 为 止 ， 已 经 学 习 了 两 种 ， 可 串 行 化 和 读 未 提交 。 

注意 ， 如 果 事 务 不 是 只 读 的 〈 即 有 可 能 修改 数据 库 ) ， 且 指定 了 隔离 层次 READ 
UNCOMMITED ， 那 么 也 必须 指定 READ WRITE。 回 顾 6.6.4 节 ， 上 默认 的 假设 是 事务 是 读 写 的 。 不 过 ， 
SQL 对 于 允许 脏 读 的 情况 有 一 个 例外 。 这 里 默认 假设 是 只 读 ， 因 为 如 已 经 看 到 的 那样 ， 包 含 
脏 读 的 读 写 事务 要 冒 很 大 的 风险 。 所 以 ， 如 果 让 读 写 事务 在 读 未 提交 的 隔离 层次 上 运行 ， 就 
需要 像 上 述 那 样 显 式 地 指定 READ WRITE。 


6.6.6 其 他 隔离 层次 








在 不 同 隔离 层次 运行 的 事务 之 间 的 相互 影响 
微妙 之 处 在 于 事务 的 隔离 层次 只 影响 该 事务 可 以 看 到 的 那些 数据 ， 不 影响 其 他 事务 所 
看 到 的 数据 。 作 为 佐证 ， 如 果 事 务 7 正在 串 行 化 层次 运行 ， 那 么 7 的 执行 必须 看 起 来 好 像 所 


有 其 他 事务 要 人 么 完全 在 7 之 前 运行 ， 要 么 完全 在 7 之 后 运行 。 但 是 ， 如 果 一 些 事务 正 运 行 在 
其 他 的 隔离 层次 上 ， 那 么 它们 可 以 在 7 写 数据 时 看 到 7 所 写 的 数据 。 如 果 它 们 和 运行 在 读 未 提 
交 隔 离 层次 ， 它 们 可 以 看 到 来 自 7 的 脏 数据 ， 且 7 天 折 。 





SQL 一 共 提 供 了 四 种 隔离 层次 (isolation level) 。 有 两 种 已 经 看 到 了 : 可 串 行 化 和 读 未 提 
交 (允许 脏 读 )。 其 余 两 种 是 读 提交 (read-committed) 和 可 重复 读 (repeatable-read)。 它 们 
可 分 别 通过 如 下 语句 指定 : 

SET TRANSACTION ISOLATION LEVEL READ COMMITTED; 
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和 

SET TRANSACTION ISOLATION LEVEL REPEATABLE READ; 

对 于 每 条 语句 ,默认 事务 是 读 写 的 ， 所 以 在 适当 的 情况 下 , 可 在 每 条 语句 后 面 加 上 READ ONLY。 
顺便 提 一 下 ， 还 有 一 个 指定 选项 

SET TRANSACTION ISOLATION LEVEL SERIALIZABLE; 

但 是 ， 这 是 SQL 的 默认 情况 ， 不 必 显 式 指定 。 

顾名思义 ， 读 提交 隔离 层次 禁止 读 取 脏 数据 (未 提交 数据 ) 。 但 是 ， 它 确实 允许 一 个 在 该 
隔离 层次 执行 的 事务 多 次 发 出 同一 个 查询 并 得 到 不 同 的 答案 ， 只 要 答案 反映 了 已 提交 事务 写 
入 的 数据 。 

例 6.46 ”重新 考虑 例 6.45 的 座位 选择 程序 ， 但 是 假定 声明 程序 运行 在 读 提交 隔离 层次 。 那 
么 在 第 1 步 寻 找 座 位 时 ， 如 果菜 个 其 他 事务 正在 预订 座位 但 尚未 提交 ， 那 么 它 不 会 将 这 些 座位 
看 作 是 已 被 预订 的 S。 但 是 ， 如 果 旅 客 拒绝 了 座位 ， 并 且 执 行 查询 函数 多 次 来 查询 空闲 座位 ， 
那么 每 次 查询 时 都 可 以 看 到 不 同 的 空闲 座位 集合 ， 因 为 和 这 个 事务 并 行 执行 的 其 他 事务 成 功 
地 预订 或 释放 了 座位 。 口 

现在 ， 考 虑 可 重复 读 隔离 层次 。 这 个 术语 有 点 用 词 不 当 ， 因 为 同一 个 查询 发 出 的 访问 不 能 
保证 得 到 相同 的 答案 。 在 可 重复 读 隔 离 层 次 下 ， 如 果 第 一 次 检索 到 一 个 元 组 ， 那 么 可 以 确信 重 
复 这 个 查询 时 会 再 次 检索 到 同一 元 组 。 但 是 ， 同 一 个 查询 的 第 二 次 执行 及 后 续 的 执行 也 有 可 能 
检索 到 幻像 (phantom) 元 组 。 幻 像 元 组 是 在 该 事务 执行 时 数据 库 插入 操作 带 来 的 元 组 。 

例 6.47 ”继续 讨论 例 6.45 和 例 6.46 中 的 座位 选择 问题 。 如 果 在 可 重复 读 隔离 层次 下 执行 这 
个 函数 ， 那 么 在 第 1 步 的 第 一 次 查询 时 是 空闲 的 座位 将 在 后 续 查 询 中 保持 空闲 。 

但 是 , 假定 关系 Fl1ights 有 了 一 些 新 的 元 组 ,例如 ,航空 公司 可 能 将 航班 改 用 较 大 的 飞机 ， 
创建 了 一 些 以 前 不 存在 的 新 元 组 。 那 么 在 可 重复 读 隔 离 层次 下 ， 一 个 后 续 的 对 空闲 座位 的 查 
询 可 能 也 会 检索 到 这 些 新 座位 。 

图 6-17 总 结 了 四 种 SQL 隔离 层次 之 间 的 不 同 之 处 。 


Isolation Level Dirty Reads | Nonrepeat- Phantoms 
able Reads 

















Read Uncommitted Allowed Allowed Allowed 


Read Committed Not Allowed Allowed Allowed 
Repeatable Read Not Allowed | Not Allowed Allowed 
Serializable Not Allowed | Not Allowed | Not Allowed 





图 6-17 SQL 隔离 层次 的 特性 


6.6.7 习题 
习题 6.6.1 本 题 和 下 一 题 的 程序 都 对 如 下 两 个 关系 进行 操作 。 
Product (maker, model, type) 
PC(model, speed, ram, hd, price) 
使 用 SQL 语句 和 传统 语言 ， 简 要 地 写 出 下 列 程序 。 不 要 忘记 在 恰当 的 时 候 使 用 BEGIN TRANSACTION、 
COMMIT 和 ROLLLLBACK 语 句 ， 且 如 果 你 的 事务 是 只 读 的 ， 要 告诉 系统 。 


日 ”实际 上 发 生 的 情况 看 起 来 有 些 神秘 ， 因 为 我 们 不 能 确定 采用 不 同 隔离 层次 的 算法 。 很 可 能 出 现 如 下 情况 : 
两 个 事务 都 看 到 一 个 座位 空 亲 并 试图 预订 ， 系 统 将 强迫 其 中 之 一 回 党 以 解除 死 锁 ( 见 6.6.3 节 的 方 框 “ 应 用 
与 系统 产生 的 回 深 ")。 
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a) 给 定 速 度 和 RAM 容 量 (作为 函数 的 参数 )， 查 询 具 有 该 速度 和 RAM 容 量 的 PC， 输 出 其 型 号 和 价格 。 

b) 给 定型 号 ， 从 PC 和 Product 中 删除 具有 该 型 号 的 元 组 。 

c) 给 定型 号 ， 将 具有 该 型 号 的 PC 减 价 100 美 元 。 

d) 给 定 生产 商 、 型 号 、 处 理 器 速度 、RAM 容 量 、 硬 盘 容 量 和 价格 ， 检 查 是 否 没 有 产品 具有 该 型 号 。 若 有 
该 型 号 ， 为 用 户 输出 一 条 出 错 信息 。 若 数据 库 中 无 该 型 号 ， 将 关于 该 型 号 的 信息 输入 表 PC 和 Product。 

! 习 题 6.6.2 ”对 于 上 题 中 的 每 个 程序 ， 若 在 程序 执行 过 程 中 出 现 系 统 崩溃， 是 否 有 原子 性 问题 ? 车 有 ， 
请 讨论 之 。 

! 习 题 6.6.3 ”假设 将 6.6.1 的 四 个 程序 中 的 一 个 作为 事务 7 执行 ， 而 在 大 约 同一 时 间 ， 其 他 作为 这 四 个 程 
序 中 的 同一 个 或 另 一 个 执行 的 事务 可 能 也 在 执行 。 如 果 所 有 的 事务 都 在 读 未 提交 隔离 层次 运行 ( 它 
们 不 可 能 都 在 可 串 行 化 隔离 层次 运行 )， 事 务 7 会 出 现 什么 情况 ”分别 考 虑 事务 7 是 习题 6.6.1 中 的 程 
序 (a) 到 (d) 中 的 任意 一 个 的 情况 。 

!! 习 题 6.6.4 ”假设 有 一 个 事务 T 是 “永远 ”运行 的 函数 ， 每 隔 一 小 时 检查 是 否 有 速度 为 3.5 或 更 高 、 售 价 
低 于 1000 美 元 的 PC。 若 有 ， 输 出 相关 信息 并 终止 。 在 这 段 时 间 内 ， 其 他 的 作为 习题 6.6.1 的 四 个 程序 
中 的 一 个 的 执行 的 事务 可 能 也 在 执行 。 对 于 每 一 个 隔离 层次 一 一 可 串 行 化 、 可 重复 读 、 读 提交 以 及 
读 未 提交 ， 说 出 事务 7 在 隔离 层次 下 执行 的 效果 。 


6.7 小 结 





*。SQL: SQL 语言 是 关系 数据 库 系统 使 用 的 主要 查询 语言 。 目 前 最 新 标准 是 SQL-99 或 
SQL3。 商 业 系 统 通 常 和 SQL 标准 略 有 出 入 。 

。Select-from-where 查 询 (select-from-where Query): SQL 查询 最 常用 的 形式 是 select- 
from-where。 它 允许 使 用 儿 个 关系 的 积 (在 FR0OM 子 句 中 )、 对 结果 元 组 施加 过 滤 条 件 
(在 WHERE 子 句 中 )， 并 产生 需要 的 字段 (SELECT 子 句 ) 。 

。 子 查询 (Subquery) : select-from-where 查 询 也 能 在 其 他 查询 中 的 WHERE 子 名 或 FROM 子 句 
中 作为 子 查 询 使 用 。 操 作 符 EXISTS、IN、ALL 和 ANY 都 可 以 作用 在 WHERE 子 句 中 子 查询 形 
成 的 关系 上 ， 并 形成 布尔 值 表达 式 。 

。 关 系 上 的 集合 运算 (Set Operation on Relation ) ， 可 以 通过 使 用 保留 字 UNION、INTERSECT 
和 EXCEPT 分 别 连接 关系 或 者 产生 关系 的 查询 ， 达 到 实现 关系 的 并 、 交 和 差 的 操作 。 

。 连 接 表达 式 (Join Expression): SQL 提供 如 NATURAL JOIN 这 样 的 操作 符 作 用 在 关系 上 ， 
可 以 看 作 将 其 看 作 是 一 个 查询 或 在 FROM 子 句 中 定义 的 一 个 新 关系 。 

。 空 值 (Null Value): SQL 在 元 组 的 字段 值 没 有 指定 具体 值 的 时 候 ， 提 供 一 个 特殊 的 值 
NULL。NULL 的 逻辑 和 算术 运算 规则 都 比较 特殊 。 任 何 值 和 NULL 值 比较 的 结果 都 是 布尔 
值 UNKNOWN， 即 使 该 值 也 是 NULL 值 。UNKNOWN 值 也 能 在 布尔 运算 中 出 现 ， 但 把 它 看 作 处 
于 TRUE 和 FALSE 之 间 的 一 个 值 。 

。 外 连接 (Outerjoin): SQL 提 供 一 个 0UTER JION 操 作 符 连接 关系 。 连 接 结果 中 包括 来 自 
连接 关系 的 悬浮 元 组 。 结 果 关 系 中 悬 序 元 组 被 十 上 NULL 值 。 

。 关 系 的 包 模 型 (the Bag Model of Relation); SQL 实际 上 把 关系 看 作 装 满 元 组 的 包 而 不 
是 元 组 的 集合 。 可 以 使 用 DISTINCT 保 留 字 来 消除 元 组 重复 ， 而 保留 字 ALL 在 某 些 不 认为 
关系 是 包 的 情况 下 允许 结果 是 包 。 

。 有 聚集 (Aggregation): 关系 中 某 列 的 值 可 以 通过 使 用 保留 字 SUM、AVG (平均 值 )、MIN、 
MAX 和 COUNT 进 行 统计 (聚集 )。 在 进行 聚集 操作 前 元 组 可 以 通过 GROUP BY 进行 分 组 。 利 
用 保留 字 HAVING 可 以 消除 某 些 分 组 。 
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。 更 新 语句 (Modification Statement): SQL 人 允许 改变 关系 中 元 组 的 值 。 可 以 在 SQL 语 句 中 
使 用 INSERT (插入 新 元 组 )、DELETE (删除 元 组 ) 和 UPDATE (修改 某 些 存在 的 元 组 ) 来 
达到 目的 。 

。 事 务 (Transaction): SQL 人 克 许 程序 员 把 SQL 语句 组 成 事务 ， 这 些 事务 可 以 提交 或 者 回 滚 
(天 折 )。 事 务 回 深 的 原因 或 者 是 应 用 程序 为 了 取消 所 作 的 变动 ， 或 者 是 系统 为 了 保证 原 
子 性 和 独立 性 。 

。 隔 离 层 次 (Isolation Level): SQL 人 允许 事务 以 四 个 隔离 层次 运行 ， 从 最 串 行 的 到 最 不 串 
行 的 :“ 可 串 行 化 ”( 事 务必 须 完全 在 另 一 个 事务 之 前 或 之 后 运行 )、“ 可 重复 读 ”( 查 询 得 
到 的 每 个 元 组 如 果 在 此 查询 再 次 执行 时 必须 重 现 )。“ 读 提交 ”( 只 有 那些 被 已 提交 事务 写 
入 的 元 组 才 可 以 被 这 个 事务 看 到 )、“ 读 未 提交 ”( 对 事务 可 以 看 到 的 信息 不 加 限制 )。 
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第 7 章 约束 与 触发 右 


本 章 讨论 SQL 中 允许 创建 “主动 ”元 素 的 相关 内 容 。 主 动 (active) 元 素 是 一 个 表达 式 或 
语句 。 该 表达 式 或 语句 只 需 编写 一 次 ， 存 储 在 数据 库 中 ， 然 后 在 适当 的 时 间 被 执行 。 主 动 元 
素 的 执行 可 以 是 由 于 某 个 特定 事件 引发 ， 如 对 关系 插入 元 组 ， 或 者 是 当 修改 数据 库 的 值 引起 
某 个 逻辑 值 为 真 等 。 

应 用 程序 编写 者 面临 的 一 个 重要 问题 是 ， 当 更 新 数据 库 时 ， 新 的 信息 有 可 能 存在 各 种 形 
式 的 错误 。 例 如 ， 手 工 录 入 数据 时 常常 有 抄写 或 印刷 错误 。 因 此 编写 应 用 程序 过 程 中 要 对 每 
个 插入 、 删 除 或 修改 命令 都 编写 与 其 结合 的 检查 ， 以 保证 其 正确 性 。 但 是 ， 最 好 的 方法 是 把 
这 些 检 查 保存 在 数据 库 中 ， 由 DBMS 管 理 检 查 。 这 样 做 既 可 以 确保 检查 不 会 被 遗忘 ， 同 时 可 
以 避免 重复 工作 。 

SQL 提供 了 各 种 技术 把 完整 性 约束 〈integrity constraint) 作为 数据 库 模 式 的 一 部 分 。 本 章 
讨论 其 基本 方法 。 前 面 章 节 中 已 学 习 了 键 约束 ， 它 将 一 个 或 一 组 属性 声明 为 一 个 关系 的 键 。 
SQL 支 持 引 用 完整 性 ， 称 为 “外 键 约束 ”(foreign-key constraint)， 它 是 指 一 个 关系 中 的 一 个 
属性 或 一 组 属性 的 值 也 必须 在 另 一 个 关系 的 一 个 或 一 组 属性 的 值 中 出 现 。SQL 也 允许 属性 上 、 
元 组 上 和 关系 之 间 的 约束 。 关 系 之 间 的 约束 称 为 “断言 "。 最 后 将 讨论 “触发 器 ”(trigger)， 
触发 器 是 主动 元 素 的 一 种 形式 ， 它 在 某 个 特定 事件 发 生 时 被 调用 ， 例 如 对 一 个 特定 关系 的 插 
和 事件 。 


7.1 键 和 外 键 


回顾 2.3.6 节 中 SQL 人 允许 用 保留 字 PRIMARY KEY 或 UNIQUE 定 义 一 个 属性 或 一 组 属性 为 一 个 关 
系 的 键 。 在 与 某 个 引用 完整 性 约束 连接 中 ，SQL 也 使 用 “ 键 ” 这 一 术语 。 这 类 约束 被 称 为 
“外 键 约束 ”， 该 约束 判定 一 个 关系 中 出 现 的 值 也 必须 在 另 一 个 关系 的 主键 中 出 现 。 


7.1.1 外 键 约束 声明 

外 键 约 束 是 一 个 断言 ， 它 要 求 某 些 属性 的 值 必须 有 意义 。 比 如 ， 在 例 2.21 中 考虑 如 何在 关 
系 代数 中 表示 这 一 约束 ， 即 对 于 每 部 影片 ， 其 制 片 人 的 “证 书号 ”也 是 MovieExec 关 系 中 某 制 
片 人 的 证 书号 。 | 

在 SQL 中 可 以 将 关系 的 一 个 属性 或 属性 组 声明 为 外 键 (foreign key) ， 该 外 键 引 用 另 一 个 
关系 (也 可 以 是 同一 个 关系 ) 的 属性 (组 )。 外 键 声明 隐 含 着 如 下 两 层 意思 : 

1. 被 引用 的 另 一 个 关系 的 属性 在 它 所 在 的 关系 中 ， 必 须 被 声明 为 UNIQUE 或 PRIMARY KEY。 
否则 ， 就 不 能 做 外 键 声明 。 

2. 在 第 一 个 关系 中 出 现 的 外 键 值 ， 也 必须 在 被 引用 关系 的 某 个 元 组 的 属性 中 出 现 。 更 精 
确 地 说 ， 若 令 外 键 F 引 用 某 个 关系 的 属性 集 G， 并 假定 第 一 个 关系 中 的 元 组 ! 在 F 的 所 有 属性 上 
的 值 非 空 ，1 的 这 些 属性 值 列表 记 为 1 [F]。 于 是 ， 在 被 引用 的 关系 上 必定 有 元 组 ;，s 的 G 属 性 
(组 ) 值 与 1 [F] 值 相等 。 也 就 是 说 ，s [G]=t [F]。 

对 于 主键 ， 有 两 种 方法 声明 外 键 ， 
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a) 如 果 外 键 是 单个 属性 ， 则 可 以 在 此 属性 的 名 字 和 类 型 之 后 ， 声 明 其 ”引用 ” 某 个 表 的 
某 个 属性 〈 被 引用 的 属性 必须 有 主键 或 唯一 性 声明 ) 。 声 明 的 格式 如 下 : 

REFERENCES 《“ 表 名 > (< 属性 名 >) 

b) 另 一 种 方法 是 ， 可 以 在 CREATE TABLE 语 句 的 属性 列表 上 追加 一 个 或 多 个 声明 ， 来 说 明 
一 组 属性 是 一 个 外 键 。 然 后 给 出 外 键 引用 的 表 和 属性 (这 些 属 性 必须 是 键 ) 。 声 明 的 格式 为 ; 

FOREIGN KEY (< 属性 名 列表 >) REFERENCE < 表 名 > (< 属性 名 列表 >) 

例 7.1 假设 要 说 明 关系 

Studio(name, address, presC#) 

其 主键 是 name ， 外 键 是 presC#， 它 引用 的 属性 是 关系 MovieExec 的 cert#， MovieExec 关 
系 如 下 : 

MovieExec(name, address, cert#, netWorth) 


直接 声明 presC#3 引 | 用 cert# 的 语句 如 下 : 


CREATE TABLE Studio ( 
name CHAR(30) PRIMARY KEY, 
address VARCHAR(255), 
presC# INT REFERENCES MovieExec(cert#) 
); 
另 一 种 格式 是 单独 添加 外 键 声明 : 
CREATE TABLE Studio ( 
name CHAR(30) PRIMARY KEY, 
address VARCHAR(255) ， 
presC# INT， 
FOREIGN KEY (presC#) REFERENCES MovieExec(cert#) 


)8 

注意 ， 被 引用 的 属性 MovieExec 中 的 cert# 必 须 是 MovieExec 的 键 。 无 论 上 面 使 用 哪 种 形 
式 的 声明 ， 其 意义 都 是 说 无 论 何 时 ， 在 Studio 元 组 中 presC# 的 属性 值 都 必须 也 在 某 个 
MovieExec 元 组 的 cert# 分 量 中 出 现 。 例 外 情况 是 当 Studio 元 组 中 presC# 取 空 值 时 ， 并 不 要 求 
cert# 的 值 也 是 NULL (但 注意 ，cert# 是 主键 ， 因 此 它 永远 不 会 有 NULL 值 )。 口 


7.1.2 维护 引用 完整 性 

模式 设计 者 可 以 从 三 种 方法 中 选择 强制 外 键 约束 。 通 过 研究 例 7.1 可 以 学 习 其 总 体 思想 ， 
它 要 求 在 关系 Studio 中 presC# 的 值 也 是 MovieExec 中 cert# 的 值 。DBMS 将 阻止 如 下 行为 (会 
产生 一 个 运行 时 异常 或 错误 ) ; 

a) 对 Studio 揪 入 一 新 元 组 ， 其 presC# 值 非 空 ， 但 是 它 不 是 MovieExec 关 系 中 任何 元 组 的 
cert# 值 。 

b) 修改 studio 关系 元 组 的 presC# 属 性 为 非 空 值 ， 但 是 该 值 不 是 MovieExec 关 系 中 任何 元 
组 的 cert# 值 。 

c) 删除 MovieExec 元 组 ， 该 元 组 的 cert# 值 非 空 ， 是 一 个 或 多 个 Studio 元 组 的 presC# 值 。 

d) 修改 MoivExec 元 组 的 cert# 值 ， 而 旧 的 cert# 值 是 某 电 影 公 司 的 presC# 值 。 

前 两 种 更 新 是 在 声明 了 外 键 约束 的 关系 上 的 修改 ， 别 无 选择 ， 系 统 不 得 不 拒绝 这 种 违法 
修改 。 但 是 ， 对 于 在 被 引用 关系 上 的 修改 ， 如 后 两 种 更 新 ， 设 计 者 可 以 在 以 下 三 种 选项 中 进 
行 选 择 : 

1. 缺 省 原则 (The Default Policy): 拒绝 违法 更 新 (Reject Violating Modification ) 。SQL 
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eb 即 拒 绝 任何 违反 引用 完整 性 约束 的 更 新 。 

2. 级 联 原 则 (The Cascade Policy): 在 该 原则 下 ,被 引用 属性 (组 ) 的 改变 被 仿造 到 外 键 上 。 
例如 ， 在 级 联 原则 下 ， 当 对 电影 公司 经 理 删除 MovieExec 元 组 时 ， 为 了 维护 引用 完整 性 ， 系 统 
将 从 Studio 中 删除 引用 元 组 。 如 果 对 于 某 电影 制 片 人 将 cert# 的 值 从 cl 修改 为 cz:， 同 时 有 某 
Studio 元 组 的 presC# 值 是 cl ， 则 系统 也 把 该 presC# 值 修改 为 c。 

3. 置 空 值 原则 (The Set-Null Policy): 这 里 ， 当 在 被 引用 的 关系 上 的 更 新 影响 外 键 值 时 ， 
后 者 被 改 为 空 值 (NULL) 。 例 如 ， 如 果 从 MovieExec 中 删除 一 个 电影 公司 经 理 的 元 组 ， 则 系统 
会 把 该 电影 公司 的 presC# 值 改 为 空 值 。 1) CREATE TABLE Studio ( 








如 果 修 改 MovieExec 中 经 理 的 证 书号 ， name CHAR(30) PRIMARY KEY, 

则 还 是 在 Studio 中 把 presC# 置 为 空 值 。 Es MovieExec (cert#) 
这 些 选项 可 独立 地 选择 删除 和 修 ON DELETE SET NULL 

改 ， 并 且 它 们 同 外 键 一 起 声明 。 声 明 的 2 a NE 

方法 是 在 ON DELETE 或 ON UPDATE 后 面 加 | 

上 SET NULL 或 CASCADE 选 项 。 图 7-1 选择 不 同 原则 保持 引用 完整 性 


例 7.2 ”修改 例 7.1 中 对 Studio(name，address，presc#) 的 声明 ， 以 详细 描述 关系 
MovieExec(name，address，cert#，networth ) 的 删除 和 修改 操作 。 

图 7-1 使 用 例 7.1 的 CTREATE TABLE 语句 ， 并 用 ON DELETE 和 ON UPDATE 对 其 进行 扩展 。 
第 (5) 行 声明 ， 删 除 MovieExec 元 组 的 同时 ， 也 从 Studio 中 将 该 制 片 经 理 的 presC# 值 改 为 
NULL。 第 (6) 行 声明 ， 修 改 MovieExec 元 组 的 cert# 值 时 ，Studio 中 有 具有 该 值 的 presC# 值 也 
被 同时 修改 

悬浮 元 组 和 更 新 原则 


外 键 值 在 被 引用 的 关系 中 不 出 现 的 元 组 称 为 悬浮 元 组 (dangling tuple)， 而 未 能 参与 连 
接 运 算 的 元 组 也 称 为 “是 浮 "。 这 两 个 概念 紧密 相关 。 如 果 元 组 的 外 键 值 在 被 引用 的 关系 中 


不 出 现 ， 那 么 在 外 键 和 其 所 引用 的 键 上 做 相等 连接 运算 (也 称 为 外 键 连接 运算 (foreign- 
key join)) 时 ， 该 元 组 将 不 会 参与 其 关系 和 被 引用 关系 的 连接 运算 。 确 切 地 说 ， 号 浮 元 组 
就 是 那些 对 于 外 键 约束 来 说 违反 引用 完整 性 的 元 组 。 





注意 , 该 例 中 置 空 原则 使 删除 具有 更 多 的 含义 ， 而 级 联 原则 更 适 于 修改 。 例 如 ， 电 影 公司 
经 理 退 休 时 ， 电 影 公 司 仍然 存在 ， 其 经 理 属 性 值 在 经 理 没 有 确定 前 要 取 空 值 。 可 是 ， 电 影 公 
司 经 理 证 书号 的 修改 更 像 是 办 事 员 的 变更 。 此 时 人 员 继 续 存 在 ， 而 且 将 是 该 电影 公司 的 经 理 ， 
因此 Studio 中 presC# 属 性 值 也 应 该 随 着 改变 。 吕 


7.1.3 ”延迟 约束 检查 

假定 在 例 7.1 中 ，Studio 的 presC# 是 引用 MovieExec 中 cert# 的 外 键 。 假 设 Arnold 
Schwarzenegger 印 任 加 州 州 长 并 决定 建立 一 个 电影 公司 ， 称 作 La Vista 电 影 公 司 ， 当 然 他 就 是 
该 公司 的 经 理 。 但 是 ， 执 行 如 下 插入 语句 会 有 些 麻烦 。 

INSERT INTO Studio 

VALUES(’La Vista’, ’New York’, .23456); 
原因 是 MovieExec 没 有 证 书号 码 为 23456 的 元 组 (假定 23456 是 最 新 为 Arnold Schwarzenegger 颁 
发 的 证 书 ) ， 显然 这 违反 了 外 键 约 束 。 

解决 此 问题 的 一 种 方法 是 先 插入 La Vista 元 组 ， 但 是 经 理 证 书 的 值 为 空 。 如 
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INSERT INTO Studio(name, address) 

VALUES(’La Vista’, ’New York’); 
这 种 改变 避免 了 违反 约束 。 因 为 La Vista 元 组 插入 时 ，presC# 的 值 是 NULL， 系 统 对 空 的 外 键 不 
检查 其 引用 的 列 是 否 有 已 存在 的 值 。 可 是 ， 在 执行 如 下 修改 语句 前 ， 还 必须 要 把 带 有 正确 证 
书号 的 Arnold Schwarzenegger 元 组 插入 MovieExec 关 系 。 


UPDATE Studio 
SET presC# = 23456 
WHERE name = ?La Vista’; 


因为 如 果 不 首先 插入 MovieExec 元 组 ， 该 修改 语句 同样 也 违反 了 外 键 约束 。 

当然 ， 在 这 种 情形 下 ， 把 La Vista 元 组 插入 Studio 之 前 ， 先 把 Arnold Schwarzenegger 及 他 
的 证 书 元 组 插入 MovieExec， 将 防止 违反 外 键 约束 。 但 是 ， 当 循环 约束 (circular constraint ) 
发 生 时 ， 如 上 仔细 安排 的 数据 库 更 新 顺序 也 不 能 解决 其 违反 约束 问题 。 

例 7.3 如果 电 影 制 片 人 被 约束 为 是 电影 公司 经 理 ， 则 要 声明 cert# 是 引用 Studio 
(presC#) 的 外 键 。 于 是 presC# 必 须 被 声明 为 UNIQUE。 该 声明 意味 着 ， 两 个 电影 公司 的 经 理 
不 能 同时 是 同一 个 人 。 

现在 ,不 可 能 插入 带 有 新 经 理 的 新 电影 公司 。 因 为 不 能 对 Studio 树 入 其 presC# 值 是 新 值 
的 元 组 ， 这 样 做 将 违反 presC# 是 引用 MovieExec (cert#) 的 外 键 约束 。 也 不 能 对 MovieExec 
插入 其 cert# 值 是 新 值 的 元 组 ， 因 为 这 将 违反 cert# 是 引用 Studio (presC#) 的 外 键 约束 。 口 

例 7.3 中 的 问题 可 如 下 解决 : 

1. 首先 ， 必 须 将 两 个 插入 操作 (一 个 插入 Studio， 另 一 个 插入 MovieExec) 组 成 一 个 单一 
事务 。 

2. 然后 ， 需 要 有 一 种 方法 通知 DBMS 不 要 检查 其 约束 ， 直 到 整个 事务 完成 执行 并 要 提交 
为 止 。 

为 了 通知 DBMS 第 (2) 点 ， 任 何 约束 的 声明 一 一 键 、 外 键 或 其 他 将 在 本 章 中 见 到 的 约束 一 一 后 
面 可 以 有 DEFERRABLE 或 NOT DEFERRABLE 选 项 。 后 者 是 缺 省 值 ， 也 即 意味 着 每 次 执行 一 条 数据 
库 更 新 语句 时 ， 如 果 该 更 新 可 能 违反 外 键 约束 ， 则 随后 立即 检查 该 约束 。 可 是 ， 如 果 约 束 被 


声明 为 DEFERRBLE， 则 约束 检查 将 推迟 到 当前 事 
CREATE TABLE Studio ( 


务 完成 时 进行 。 name CHAR(30) PRIMARY KEY, 
保留 字 DEFERRBLE 后 面 可 有 INITIALLY address VARCHAR(255), 
\ presC# INT UNIQUE 
DEFERRED 或 者 INITIALLY IMMEDIATE 和 选项。 在 REFERENCES MovieExec(cert#) 


前 一 种 情况 中 ， 检 查 仅 被 推迟 到 事务 提交 前 执 DEFERRABLE INITIALLY DEFERRED 
行 。 在 后 一 种 情况 中 ， 检 查 在 每 个 语句 后 都 立 ; 
即 被 执行 。 

例 7.4 图 7-2 给 出 了 将 5tudio 的 外 键 约束 检 
查 修改 为 推迟 到 事务 结束 时 进行 的 声明 。 将 
presC# 声 明 为 UNIQUE， 是 便于 被 其 他 关系 外 键 约束 引用 。 

如 果 对 例 7.3 中 提 到 的 假设 MovieExec (cert#) 是 引用 Studio 〈presC#) 的 外 键 约束 给 出 
类 似 的 声明 ， 则 可 以 编写 插入 两 个 元 组 的 事务 ， 分 别 为 每 个 关系 插入 一 元 组 ， 而 这 两 个 外 键 
约束 的 检查 将 推迟 到 两 个 插入 动作 完成 之 后 进行 。 这 样 一 来 ， 当 插入 新 的 电影 公司 和 它 的 新 
经 理 ， 并 且 这 两 个 元 组 具有 相同 的 证 书号 时 ， 将 避免 违反 任何 外 键 约束 。 口 

对 于 推迟 约束 检查 ， 有 两 点 要 记 住 : 





图 7-2 修改 presC# 为 UNIQUE， 并 推迟 其 外 键 约 
束 检 查 
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* 任何 类 型 的 约束 都 可 以 命名 。7.3.1 节 中 将 讨论 如 何 做 这 件 事 。 

。 如 果 约 束 有 和 名字， 比如 MyConstraint， 就 可 以 用 如 下 SQL 语 句 将 该 约束 从 立即 检查 改 为 
推迟 检查 。 
SET CONSTRAINT MyConstraint DEFERRED; 
同样 ， 也 可 以 把 上 面 的 DEFERRED 检 查 改 为 IMMEDIATE。 


7.1.4 习题 
习题 7.1.1 2.2.8 节 的 电影 数据 库 例 子 中 ， 对 所 有 关系 都 定义 了 键 , 如 下 所 示 : 


Movies(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieStar (name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 


对 上 述 电 影 数据 库 声明 如 下 引用 完整 性 约束 。 
a) 电影 的 制 片 人 必须 是 MovieExec 中 的 某 个 制 片 人 。 任 何 对 MovieExec 的 更 新 ， 若 违反 此 约束 则 拒绝 
该 操作 。 
b) 重复 (a)， 但 是 当 违 反 约 束 时 ， 将 Movies 中 的 producerC# 置 为 NULL。 
c) 重复 (a), 但 是 当 违 反 约束 时 ，Movies 中 违反 约束 的 元 组 被 删除 或 修改 。 
d) 出 现在 StarsIn 中 的 电影 ， 也 必须 出 现在 Movies 中 。 当 违反 约束 时 ， 拒 绝 其 更 新 。 
e) 在 StarsIn 中 出 现 的 影星 ， 也 必须 在 MovieStar 中 出 现 。 当 违反 约束 时 ， 删 除 违规 的 元 组 。 
! 习 题 7.1.2 在 关系 Movies 中 的 每 部 电影 都 必须 至 少 带 有 一 个 在 关系 StarsIn 中 出 现 的 影星 。 这 样 的 约束 
能 否 用 外 键 约束 声明 ? 请 说 出 其 理由 。 
习题 7.1.3 对 习题 2.4.1 中 的 PC 数据 库 : 


Product (maker, model, type) 

PC(model, speed, ram, hd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


给 出 适合 每 个 关系 的 键 和 外 键 。 修 改 习 题 2.3.1 的 SQL 模 式 定 义 ， 以 包括 这 些 键 的 声明 。 
习题 7.1.4 对 习题 2.4.3 中 的 战舰 数据 库 

Classes(class, type, country, numGuns, bore, displacement) 

Ships(name, class, launched) 


Battles(name, date) 
Dutcomes(ship, battle, result) 


给 出 适合 每 个 关系 的 键 。 修 改 习题 2.3.2 的 SQL 模式 定义 ， 以 包括 这 些 键 的 声明 。 
习题 7.1.5 ”对 习题 7.1.4 中 的 战舰 数据 库 ， 写 出 如 下 引用 完整 性 约束 。 根 据 习题 7.1.4 中 有 关键 的 假定 , 通 
过 设置 引用 属性 值 为 NULL 来 处 理 所 有 违反 约束 之 处 。 

a) 在 Ships 中 提 到 的 每 一 类 ， 也 必须 在 Classes 中 出 现 。 

b) 在 0utcomes 中 提 到 的 每 一 次 战斗 ， 也 必须 在 Battles 中 出 现 。 

c) 在 0utcomes 中 提 到 的 每 艘 战舰 ， 也 必须 在 Ships 中 出 现 。 


7.2 属性 和 元 组 上 的 约束 


在 SQL 的 CREATE TABLE 语 句 中 可 以 声明 两 种 约束 : 
1. 在 单一 属性 上 的 约束 。 
2. 在 整个 元 组 上 的 约束 。 
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7.2.1 节 中 将 介绍 属性 上 的 简单 约束 类 型 : 属性 值 不 能 是 NULL 的 约束 。7.2.2 节 中 将 给 出 约 
束 类 型 (1) 的 基本 形式 : 基于 属性 的 CHECK 约 束 (attribute-based CHECK constraint)。 第 二 种 类 
型 ， 即 基于 元 组 的 约束 将 在 7.2.3 节 中 给 出 。 

更 一 般 性 的 约束 将 在 7.4 节 和 7.5 节 中 见 到 。 这 些 约束 可 用 于 约束 整个 关系 或 多 个 关系 上 的 
改变 ， 以 及 在 单个 属性 或 元 组 值 上 的 约束 。 


7.2.1 非 空 值 约束 

与 属性 相连 的 简单 约束 是 NOT NULL， 其 作用 是 不 允许 元 组 的 该 属性 取 空 值 。 约 束 声明 方 
法 是 在 CREATE TABLE 语句 的 属性 声明 之 后 用 保留 字 NOT NULL 声 明 。 

例 7.5 假定 关系 Studio 中 需要 PresC# 不 取 空 值 , 可 以 将 图 7-1 中 的 第 (4) 行 改 为 : 

4) presC# INT REFERENCES MovieExec(cert#) NOT NULL 
这 个 修改 会 造成 几 种 结果 。 例 如 : 

。 对 Studio 关 系 插入 元 组 时 ， 不 能 只 给 出 名 字 和 地 址 ， 因 为 此 时 其 PresC# 的 值 可 能 是 


NULL 。 
。 图 7-1 中 第 (5) 行 的 置 空 值 原则 此 处 不 能 用 。 因 为 该 原则 通知 系统 ， 当 违反 外 键 约束 时 要 
将 PresC# 值 置 空 。 口 


7.2.2 基于 属性 的 CHECK 约 束 

更 复杂 的 约束 是 将 保留 字 CHECK 和 用 圆 括号 括 起 来 的 条 件 附加 在 属性 声明 上 ， 该 条 件 是 该 
属性 的 每 个 值 都 应 满足 的 条 件 。 实 际 中 ， 基 于 属性 的 CHECK 约 束 是 值 上 的 简单 约束 ， 如 合法 值 
的 枚 举 或 算术 不 等 式 。 可 是 ， 原 则 上 CHECK 条 件 可 以 是 任何 在 SQL 语 句 的 WHERE 子 句 中 允许 的 
描述 。 条 件 可 以 通过 表达 式 中 的 属性 名 字 引 用 被 约束 的 属性 。 但 是 ， 如 果 条 件 要 引用 其 他 关 
系 ， 或 是 其 他 属性 ， 则 该 关系 必须 是 子 查询 的 FROM 子 句 中 出 现 的 关系 (即使 该 关系 是 被 检查 
属性 的 关系 )。 

基于 属性 的 CHECK 约 束 是 在 元 组 为 该 属性 获得 新 值 时 被 检查 。 新 值 可 能 是 由 于 修改 元 组 而 
引入 的 ， 也 可 能 是 插入 元 组 的 一 部 分 。 在 修改 的 情况 下 ， 是 对 新 值 而 不 是 对 旧 值 进行 约束 检 
查 。 如 果 新 值 违 反 约束 ， 则 该 修改 被 拒绝 。 

如 果 数 据 库 的 修改 没有 改变 与 约束 相关 的 属性 ， 则 不 进行 基于 属性 的 CHECK 约 束 检查 ， 理 
解 这 一 点 很 重要 。 如 果 约 束 中 的 其 他 值 发生 改 变 ， 这 一 限制 可 能 导致 违反 该 约束 。 下 面 首先 
考虑 一 个 基于 属性 的 CHECK 约 束 的 简单 例子 。 然 后 考虑 包含 子 查询 的 约束 ， 并 且 领 会 仅 当 修改 
其 属性 时 才 检 查 该 约束 的 这 一 事实 的 结果 。 

例 7.6 假设 证 书号 必须 至 少 有 6 位 数字 。 图 7-1 中 关系 

Studio(name, address, presC#) 
模式 声明 的 第 (4) 行 可 以 改 为 : 

4) PresC# INT REFERENCES MovieExec(cert#) 

CHECK (presC# >= 100000) 


另外 一 个 例子 ， 图 2-8 中 关系 

MovieStar (name, address, gender, birthdate) 
的 gender 属 性 的 数据 类 型 被 声明 为 CHAR(1) 一 一 也 就 是 说 ， 是 一 个 单字 符 。 可 是 ,该 字符 的 期 
望 值 只 能 是 “F” 和 “M”。 如 下 对 图 2-8 中 第 (4) 行 的 替换 强化 了 这 一 规则 : 

4) gender CHAR(1) CHECK (gender IN (GF’, ’M’)), 
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注意 ， 表 达 式 (FF ,“M" ) 描述 了 一 个 只 有 两 个 元 组 的 单个 分 量 的 关系 。 该 约束 是 说 任 
何 gender 的 值 必须 是 此 集合 中 的 值 。 口 

例 7.7 ”假设 用 基于 属性 的 CHECK 约 束 模拟 引用 完整 性 约束 ， 要 求 被 引用 值 必 须 存 在 。 下 
面 是 模拟 

Studio(name, address, presC#) 
关系 中 presC# 值 必须 在 关系 

MovieExec(name, address, cert#, netWorth) 

的 cert# 之 中 出 现 的 错误 尝试 。 

假定 图 7-1 的 第 (4) 行 改 为 : 

4) presC# INT CHECK 
(presC# IN (SELECT cert# FROM MovieExec)) 

该 语句 是 一 个 合法 的 基于 属性 的 CHECK 约 束 ， 但 是 看 看 它 的 作用 。 对 Studio 引 和 一 个 不 是 
MovieExec 中 cert# 值 的 presC# 值 时 ， 这 样 的 修改 将 被 拒绝 。 除 了 对 于 没有 空 值 的 cert#， 基 于 属 
性 的 CHECK 约 束 还 将 为 presC# 拒 绝 一 个 空 值 之 外 ， 这 几乎 就 是 类 似 的 外 键 约束 会 做 的 事情 。 但 更 
重要 的 是 ， 这 里 如 果 改 变 MovieExec 关 系 ， 比 方 说 删除 电影 公司 经 理 元 组 ， 此 变化 对 上 述 CHECK 
约束 不 可 见 。 于 是 ， 删 除 动作 被 执行 ， 即 使 这 样 违 反 了 presC# 上 的 基于 属性 的 CHECK 约 束 。 口 


7.2.3 基于 元 组 的 CHECK 约 束 

为 了 对 单个 表 R 的 元 组 声明 约束 ， 在 用 CREATE TABLE 语 句 定义 表 时 ， 可 以 在 属性 列表 、 
键 或 外 键 声明 上 附加 CHECK 保 留 字 ， 其 约束 条 件 用 括号 括 起 。 括 号 中 的 条 件 可 以 是 WHERE 子 名 
中 出 现 的 任何 表达 式 。 表 达 式 被 解释 为 表 R 元 组 上 的 条 件 ，R 的 属性 可 以 用 它 的 名 字 在 该 表达 
式 中 被 引用 。 但 是 ， 如 同 基于 属性 的 CHECK 约 束 ， 该 条 件 还 可 以 在 子 查询 、 其 他 关系 或 同一 关 
系 R 的 其 他 元 组 中 提 及 。 


约束 检查 的 局 限 : 是 缺陷 还 是 特征 ? 
人 们 可 能 奇怪 ， 如 果 基 于 属性 和 基于 元 组 的 约束 引用 了 其 他 关系 或 同一 个 关系 的 其 他 
元 组 时 ， 为 什么 能 允许 它们 被 违反 。 理 由 是 ， 这 样 的 约束 实现 可 以 比 更 通用 的 约束 的 实现 


更 有 效 。 带 有 基于 属性 或 基于 元 组 的 检查 ， 仅 仅 需要 计算 插入 或 修改 的 元 组 的 约束 。 而 另 
一 方面 ， 断 言 则 必须 在 其 所 提 及 的 任 一 个 关系 每 次 被 改变 时 都 要 做 计算 。 对 于 仔细 的 数据 
库 设计 者 ， 仅 仅 当 这 类 约束 不 可 能 被 违反 时 才 使 用 基于 属性 和 基于 元 组 的 约束 。 否 则 ， 将 
使 用 其 他 机 制 ， 如 断言 (7.4 节 ) 或 触发 器 (7.5 节 ) 等 。 





每 次 向 R 插 入 元 组 以 及 当 R 的 元 组 被 修改 时 ， 都 要 检查 基于 元 组 的 CHECK 约 束 条 件 。 要 为 
这 个 新 元 组 或 被 修改 的 元 组 计算 该 条 件 。 如 果 该 元 组 的 约束 条 件 计 算 结 果 是 假 ， 则 表明 违反 
约束 ， 违 规 的 插入 或 修改 语句 被 拒绝 。 可 是 ， 如 果 条 件 在 子 查 询 中 提 及 其 他 关系 ， 而 那个 关 
系 的 改变 将 使 关系 R 的 某 些 元 组 对 条 件 的 计算 结果 为 假 ，CHECK 就 不 能 阻止 这 种 改变 。 也 就 是 
说 ， 类 似 基于 属性 的 CHECK 约 束 ， 基 于 元 组 的 CHECK 约 束 对 其 他 关系 不 可 见 。 事 实 上 ， 如 果 R 
在 子 查询 中 被 提 及 ， 那 么 即使 是 R 中 的 删除 操作 也 能 使 该 条 件 变 为 假 。 

男 一 方面 ， 如 果 基 于 元 组 的 检查 没有 子 查询 ， 那 么 这 类 约束 总 可 以 保持 。 下 面 是 一 个 没 
有 子 查 询 而 涉及 元 组 中 多 个 属性 的 基于 元 组 的 CHECK 约 束 的 例子 。 

例 7.8 对 于 例 2.3 的 MovieStar 表 的 模式 声明 ， 图 7-3 重 复 了 那个 CREATE _ TABLE 语句， 另外 
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增加 了 主键 声明 和 另 一 个 约束 ， 这 一 约束 是 将 要 检查 的 可 能 的 “一 致 性 条 件 ” 之 一 。 该 约束 
的 意思 是 ， 如 果 影 星 的 性 别 是 男性 ， 则 他 的 名 字 不 能 以 “Ms ”开头 。 


1) CREATE TABLE MovieStar ( 
name CHAR(30) PRIMARY KEY， 
address VARCHAR(255), 


gender CHAR(1), 
birthdate DATE, 
CHECK- (gender = ’F’ OR name NOT LIKE ’Ms.%’) 





图 7-3 MovieStar 表 上 的 约束 
在 第 (2) 行 ，name 被 声明 为 关系 的 主键 。 第 (6) 行 声明 了 一 个 约束 。 对 于 每 一 个 女 影星 和 名 
字 开头 不 是 “Ms . ”的 影星 元 组 ， 该 约束 条 件 取 真 值 。 使 条 件 不 为 真 的 元 组 仅 是 那些 开头 是 
‘Ms.” 的 男 影星 元 组 。 这 些 正 是 应 该 从 MovieStar 中 去 除 的 元 组 。 口 
正确 地 书写 约束 
很 多 约束 与 例 7.8 相 同 ， 都 是 为 了 禁止 满足 两 个 或 更 多 个 条 件 的 元 组 。 紧 跟 CHECK 之 后 
的 表达 式 是 每 个 条 件 的 否定 (或 肯定 ) 的 0R 运 算 。 该 变换 是 “摩根 定律 ”(DeMorgan’s 


Laws) 之 一 ，AND 项 的 否定 是 各 项 否定 的 0R。 因 此 ， 例 7.8 中 第 一 个 条 件 是 声明 影星 是 男性 ， 
使 用 gender=““F” 作 为 合适 的 否定 (虽然 gender<>“M ”应 该 是 更 一 般 的 表述 和 理 定 的 方法 )。 
第 二 个 条 件 是 说 ，name 开 头 必须 是 “Ms. ， 使 用 NOT LIKE 比 较 运算 。 该 比较 运算 本 身 包含 
和 否定 成 分 ， 在 SQL 中 可 以 写成 name LIKE ”Ms.%'。 





7.2.4 基于 元 组 和 基于 属性 的 约束 的 比较 

如 果 元 组 上 的 约束 涉及 该 元 组 的 多 个 属性 ， 那 么 它 必 须 作 为 基于 元 组 的 约束 。 但 是 ， 如 
果 约 束 仅 涉 及 元 组 的 一 个 属性 ， 那 么 可 以 作为 基于 元 组 或 基于 属性 的 约束 。 无 论 哪 种 情况 ， 
不 计算 在 子 查 询 中 提 及 的 属性 个 数 ， 即 使 基于 属性 的 约束 可 以 在 子 查询 中 提 及 同一 关系 的 其 
他 属性 。 

当 仅 涉 及 该 元 组 的 一 个 属性 (不 计 子 查询 ) 时 ， 不 管 是 作为 基于 元 组 还 是 基于 属性 的 约 
束 ， 条 件 检查 是 一 样 的 。 但 是 ， 基 于 元 组 的 约束 将 比 基 于 属性 的 约束 更 频繁 地 被 检查 ， 只 要 
该 元 组 的 任 一 个 属性 被 改变 ， 而 不 是 仅 当 在 约束 中 提 及 的 属性 改变 时 都 要 检查 。 


7.2.5 习题 
习题 7.2.1 对 关系 
Movies(title, year, length, genre, studioName, producerC#) 
写 出 如 下 关于 属性 的 约束 。 
a) 年 份 不 能 是 1915 年 以 前 。 
b) 长 度 不 能 少 于 60 也 不 能 多 于 250。 
c) 电影 公司 的 名 字 只 能 是 Disney、Fox、MGM 或 者 Paramount。 
习题 7.2.2 对 习题 2.4.1 中 的 关系 模式 写 出 如 下 关于 属性 的 约束 。 习 题 2.4.1 的 模式 是 : 
Product (maker, model, type) 
PC(model, speed, ram, hd, price) 


Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 
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a) 笔记 本 电脑 的 速度 至 少 是 2.0。 
b) 打印 机 的 类 型 只 能 是 激光 (laser)、 喷 墨 (ink-jet) 和 点 阵 (bubble-jet) 。 
c) 产品 类 型 (type) 只 能 是 PC、 笔 记 本 电脑 和 打印 机 。 
!d) 产品 型 号 (model) 必须 是 PC、 笔 记 本 电脑 或 打印 机 的 型 号 。 

习题 7.2.3 对 给 出 的 电影 例子 ， 写 出 如 下 基于 元 组 的 CHECK 约 束 。 
Movies(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 
MovieStar (name, address, gender, birthdate) 


MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) 


如 果 约 束 涉及 两 个 关系 ， 则 应 在 两 个 关系 中 都 给 出 约束 声明 。 这 样 ， 无 论 哪 个 关系 被 改变 ,约束 都 将 
对 插入 和 修改 做 检查 。 由 于 删除 操作 不 可 能 维护 基于 元 组 的 约束 ， 所 以 暂 不 考虑 。 
a) 电影 明星 不 可 能 出 现在 制作 于 其 出 生日 期 之 前 的 影片 之 中 。 
!b) 两 个 电影 公司 不 能 有 相同 的 地 址 。 
!c) 在 MovieStar 中 出 现 的 名 字 不 能 也 出 现在 MovieExec 中 。 
!d) Studio 中 出 现 的 电影 公司 名 字 至 少 要 在 Movies 的 一 个 元 组 中 出 现 。 
!le) 如 果 某 人 既是 某 部 电影 的 制 片 人 又 是 电影 公司 经 理 ， 那 么 他 必须 是 制作 这 部 电影 的 这 家 电影 公司 
的 经 理 。 
习题 7.2.4 关于 “PC” 模 式 写 出 如 下 基于 元 组 的 CHECK 约 束 。 
a) 处 理 器 速度 低 于 2.0 的 PC 价格 不 能 超过 $600。 
b) 显示 器 小 于 15 英 寸 的 笔记 本 电脑 要 么 硬盘 至 少 有 40GB， 要 么 售 价 低 于 $1000。 
习题 7.2.5 关于 “战舰 ”模式 写 出 如 下 基于 元 组 的 CHECK 约 束 。 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) 

Dutcomes(ship, battle, result) 


a) 没有 哪 一 类 战舰 有 具有 大 于 16 英 寸 口径 的 火炮 。 
b) 如 果 某 类 船只 的 火炮 多 于 9 门 ， 则 这 些 火 炮 的 口径 不 能 大 于 14 英 寸 。 
!c) 船 设 下 水 前 不 能 参战 。 
! 习 题 7.2.6 ”在 例 7.6 和 7.8 中 ， 介 绍 了 在 MovieStar 的 gender 属 性 上 的 约束 。 如 果 gender 值 为 空 值 ， 那 么 
每 个 约束 该 执行 什么 限制 ? 


7.3 修改 约束 


任何 时 候 都 可 以 添加 、 修 改 、 删 除 约束 。 表 示 这 种 修改 的 方式 依赖 于 该 约束 是 涉及 属性 、 
表 还 是 (如同 7.4 市 ) 数据 库 模式 。 


7.3.1 给 约束 命名 

为 了 修改 或 删除 一 个 已 经 存在 的 约束 ， 约 束 必 须 有 和 名字。 为 了 命名 ， 在 约束 前 加 保留 字 
CONSTRAINT 和 该 约束 的 名 字 。 

例 7.9 重 写 图 2-9 的 第 (2) 行 ， 以 说 明 属 性 name 是 主键 的 约束 命名 ， 如 : 

2) name CHAR(30) CONSTRAINT NameIlsKey PRIMARY KEY, 
同样 ， 对 出 现在 例 7.6 中 的 基于 元 组 CHECK 的 约束 命名 如 下 : 


4) gender CHAR(1) CONSTRAINT NoAndro 
CHECK (gender IN (?F’, ’M’)), 
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6) CONSTRAINT RightTitle 
CHECK (gender = ’F’ OR name NOT LIKE ’Ms.%’); 


是 为 图 7-3 中 第 (6) 行 基于 元 组 CHECK 约 束 命名 重 写 的 语句 。 口 


7.3.2 修改 表 上 的 约束 

7.1.3 节 中 提 到 , 通过 SET CONSTRAINT 语句 ， 可 以 将 约束 检查 从 立即 执行 转换 到 延期 执行 ， 
或 者 反 过 来 ， 从 延期 执行 转 为 立即 执行 。 对 约束 的 其 他 改变 是 使 用 ALTER _ TABLE 语句。2.3.4 
节 中 已 讨论 过 某 些 ALTER TABLE 语 句 的 应 用 ， 那 里 是 用 它 来 添加 和 删除 属性 。 

ALTER TABLE 语句 可 以 多 种 方式 影响 约束 。 用 保留 字 DROP 和 要 删除 的 约束 的 名 字 可 以 删 
除 约束 。 也 可 以 用 保留 字 ADD， 后 跟 要 添加 的 约束 实现 约束 添加 。 要 注意 的 是 ， 添 加 的 约束 必 
须 是 与 元 组 相关 ， 如 基于 元 组 的 约束 、 键 或 外 键 约束 。 还 要 注意 的 是 ， 除 非 要 添加 的 约束 在 
那个 时 刻 持 有 表 中 的 每 个 元 组 ， 否 则 不 能 对 表 添 加 约束 。 


为 你 的 约束 命名 
记 住 ， 最 好 为 你 的 每 个 约束 都 起 个 名 字 ， 即 使 你 认为 不 会 引用 到 它 也 要 如 此 。 如 果 约 束 
创建 时 没有 命名 ， 再 想 为 它 起 名 就 晚 了 。 但 是 ， 当 你 必须 要 改变 一 个 没有 名 字 的 约束 时 ， 你 


会 发 现 DBMS 可 能 已 经 为 你 提供 了 一 种 查找 此 约束 的 方式 。 通 过 列 出 所 有 约束 的 列表 ， 可 以 
发 现 DBMS 对 未 命名 的 约束 给 出 了 DBMS 的 内 部 名 称 ， 因 此 你 可 以 用 此 名 称 来 引用 该 约束 。 


例 7.10 对 例 7.9 中 关系 MovieStar 添 加 和 删除 约束 。 下 面 是 三 个 删除 的 语句 序列 : 
ALTER TABLE MovieStar DROP CONSTRAINT NamelskKey; 

ALTER TABLE MovieStar DROP CONSTRAINT NoAndro; 

ALTER TABLE MovieStar DROP CONSTRAINT RightTitle; 


如 果 想 要 恢复 这 些 约束 ， 可 以 修改 MovieStar 关 系 模式 ， 添 加 相同 的 约束 。 例 如 : 
ALTER TABLE MovieStar ADD CONSTRAINT NameISsSKey 
PRIMARY KEY (name) ; 
ALTER TABLE MovieStar ADD CONSTRAINT NoAndro 
CHECK (gender IN (?F’, ’M’)); 
ALTER TABLE MovieStar ADD CONSTRAINT RightTitle 
CHECK (gender = ’F’ OR name NOT LIKE ’Ms.%’); 


这 些 约束 都 是 基于 元 组 而 不 是 基于 属性 的 检查 ， 不 能 将 其 恢复 到 基于 属性 的 约束 。 
重新 引入 的 约束 的 名 字 可 以 任意 给 定 。 可 是 ， 不 能 依赖 SQL 能 记 住 已 删除 的 约束 ， 因 此 ， 





当 添 加 以 前 的 约束 时 ， 需 要 再 次 写 出 该 约束 ， 不 能 引用 它 以 前 的 名 字 。 口 
7.3.3 习题 


习题 7.3.1 按照 如 下 要 求 修改 电影 例子 的 关系 模式 : 
Movie(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 
MovieStar(name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) 
a) 将 title 和 year 作 为 Movie 的 键 。 
b) 在 MovieExec 中 , 每 个 影片 制 片 人 都 必须 出 现 的 引用 完整 性 约束 。 
c) 影片 的 长 度 不 能 少 于 60， 也 不 能 多 于 250。 
1d) 同一 个 名 字 不 能 在 影片 中 的 影星 和 影片 制 片 人 中 同时 出 现 (该 约束 在 删除 中 不 必 维 护 )。 
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le) 两 个 电影 公司 不 能 有 同一 个 地 址 。 

习题 7.3.2 修改 “战舰 ”数据 库 模 式 ， 使 其 有 如 下 基于 元 组 的 CHECK 约 束 ; 
Classes(class, type, country, numGuns, bore, displacement) 
Ships (name, class, launched) 
Battles (name, date) 
Outcomes(ship, battle, result) 


a) 关系 Classes 中 Class 和 country 形 成 键 。 

b) 在 0utcomes 中 出 现 的 每 场 战斗 也 在 Battles 中 出 现 。 

c) 在 0utcomes 中 出 现 的 每 艘 船 也 在 Ships 中 出 现 的 引用 完整 性 约束 。 
d) 没有 船 装备 有 多 于 14 门 火炮 。 

!e) 不 允许 船 没 有 下 水 前 就 参战 。 


7.4 断言 


SQL 中 主动 元 素 的 最 强 有 力 的 形式 与 特定 的 元 组 或 元 组 的 分 量 并 不 相关 。 这 些 元 素 称 作 
“触发 器 ”和 “断言 ， 它 们 是 数据 库 模 式 的 一 部 分 ， 等 同 于 表 。 

“断言 是 SQL 逮 辑 表达 式 ， 并 且 总 是 为 真 。 

“触发 器 是 与 某 个 事件 相关 的 一 系列 动作 ， 例 如 向 关系 中 插入 元 组 。 触 发 器 总 是 当 这 些 事 

件 发 生 时 被 执行 。 

由 于 断言 只 要 求 程序 员 声 明 什么 是 真 , 所 以 断言 很 便于 程序 员 使 用 。 但 是 , 触发 器 是 
DBMS 的 特性 ， 通 常 提 供 作 为 通用 目的 的 主动 元 素 。 理 由 是 ,断言 的 有 效 实现 非常 困难 。 
DBMS 必 须 推断 数据 库 的 任何 更 新 是 否 影响 断言 的 真 假 。 另 一 方面 ， 触 发 器 确切 地 告知 DBMS 
需要 在 何 时 处 理 这 些 影 响 。 


7.4.1 创建 断言 

SQL 标准 提出 了 一 种 简单 的 断言 (assertion) 形式 来 加 强 任何 条 件 (WHERE 之 后 的 表达 式 )。 
与 其 他 模式 成 分 一 样 ， 断 言 用 CREATE 语 句 声明。 断言 的 形式 是 : 

CREATE ASSERTION < 断言 名 > CHECK (< 条 件 >) 

当 断 言 建立 时 ， 断 言 的 条 件 必 须 是 真 ， 并 且 要 永远 保持 是 真 。 任 何 引起 断言 条 件 为 假 的 
数据 库 更 新 都 被 拒绝 2 。 已 经 介绍 过 的 其 他 类 型 CHECK 约 束 ， 如 果 涉 及 子 查询 ， 可 以 在 某 些 条 
件 下 避免 操作 被 拒绝 。 


7.4.2 使 用 断言 

基于 元 组 的 CHECK 约 束 和 断言 约束 在 书写 方式 上 有 差别 。 基 于 元 组 的 检查 能 直接 引用 在 它 
声明 中 出 现 的 关系 的 属性 。 断 言 没 有 如 此 特权 。 断 言 条 件 中 引用 的 任何 属性 都 必须 要 介绍 ， 
特别 是 要 提 及 在 Select-from-where 表 达 式 中 的 关系 。 

由 于 条 件 必 须 是 逻辑 值 ， 因 此 ， 必 须 用 某 种 方式 聚集 条 件 的 结果 ， 以 获得 单个 的 真 / 假 值 
选择 。 例 如 ， 可 能 有 一 些 条 件 表达 式 的 结果 产生 一 个 关系 ， 此 时 用 NOT EXISTS， 也 就 是 说 ， 
约束 该 关系 永远 是 空 。 另 外 ， 也 可 以 在 关系 的 一 个 列 上 使 用 SUM 之 类 的 聚集 操作 ， 将 其 结果 与 
一 常数 比较 。 例 如 ， 用 这 种 方法 要 求 SUM 值 总 是 小 于 某 个 限定 值 。 

例 7.11 假如 希望 其 净 资 产值 少 于 $10 000 000 的 人 不 能 成 为 电影 公司 经 理 。 可 以 写 一 个 


日 但 是 ， 在 7.1.3 节 中 约束 的 检查 可 以 一 直 延 期 到 事务 提交 前 。 如 果 对 断言 也 这 样 做 ， 到 事务 结束 它 可 能 暂时 
变 成 假 值 。 
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断言 ， 声 明 经 理 净 资产 值 少 于 $10 000 000 的 电影 公司 集合 是 空 。 该 断言 涉及 两 个 关系 : 


MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) 


断言 描述 如 图 7-4 所 示 。 口 


CREATE ASSERTION RichPres CHECK 
(NOT EXISTS 
(SELECT Studio .name 


FROM Studio，MovieExec 
WHERE presC# = cert# AND netWorth < 10000000 





图 7-4 保证 电影 公司 经 理 富有 的 断言 
例 7.12 男 一 个 断言 的 例子 。 涉 及 关系 : 


Movies(title, year, length, genre, studioName, producerC#) 
声明 对 一 个 给 定 电影 公司 ， 其 所 有 电影 的 总 长 度 不 能 超过 10 000 分 钟 。 


CREATE ASSERTION SumLength CHECK (10000 >= ALL 
(SELECT SUM(length) FROM Movies GROUP BY studioName) 


); 
由 于 该 约束 只 涉及 关系 Movies, 似乎 可 以 用 基于 元 组 的 CHECK 约 束 , 而 不 是 用 断言 来 表达 。 
也 就 是 说 ， 对 表 Movies 的 定义 增加 如 下 基于 元 组 的 CHECK 约 束 。 

CHECK (10000 >= ALL 

(SELECT SUM(length) FROM Movies GROUP BY studioName) ) ; 

注意 ， 原 则 上 ， 该 条 件 对 Movies 表 的 每 个 元 组 有 效 。 可 是 ， 它 并 不 显 式 地 提 及 元 组 的 属 
性 ， 所 有 工作 都 是 在 子 查询 中 完成 。 

另外 还 要 看 到 ， 如 果 作 为 基于 元 组 的 约束 实现 ， 对 关系 Movies 元 组 的 删除 并 不 作 检查 。 
该 例 中 ， 这 个 差别 并 不 带 来 危害 。 因 为 如 果 删 除 前 该 约束 被 满足 ， 那 么 ， 删 除 后 仍 满足 约束 
要 求 。 可 是 ， 如 果 约 束 是 总 长 度 的 下 限 ， 而 不 是 像 本 例 中 的 上 限 ， 那 么 将 发 现 由 于 是 基于 元 


组 的 检查 而 不 是 断言 ， 将 导致 违反 约束 。 口 
最 后 一 点 ， 断 言 可 以 被 删除 。 删 除 断 言 的 语句 与 删除 任何 数据 库 模式 元 素 的 格式 一 样 ， 
其 语句 格式 是 : 
DROP ASSERTION < 断言 名 > 
约束 的 比较 
下 面 的 表格 列 出 了 基于 属性 的 检查 约束 、 基 于 元 组 的 检查 约束 和 断言 之 间 的 主要 差别 。 
约束 类 型 声明 的 位 置 动作 的 时 间 确保 成 立 ? 
基于 属性 的 CHECK 。 ”属性 对 关系 插入 元 组 或 属性 修改 时 。 如 果 是 子 查询 ， 则 不 能 确保 
基于 元 组 的 CHECK ”关系 模式 元 素 对 关系 插入 元 组 或 属性 修改 时 。。 如果 是 子 查询 ， 则 不 能 确保 
断言 数据 库 模式 元 素 对 任何 提 及 的 关系 做 改变 时 是 
7.4.3 习题 


习题 7.4.1 将 如 下 要 求 写 成 断言 。 数 据 库 模式 是 习题 2.4.1 中 的 “PC” 例 子 。 
Product (maker, model, type) 
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PC(model, speed, ram, hd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer (model, color, type, price) 


a) 没有 同时 也 制造 笔记 本 电脑 的 PC 制造 商 。 

b) PC 制造 商 必须 也 能 制造 处 理 器 速度 至 少 等 于 PC 的 笔记 本 电脑 。 

c) 如 果 笔 记 本 电脑 的 内 存 大 于 PC 的 内 存 ， 则 笔记 本 电脑 的 价格 也 应 高 于 PC 的 价格 。 

d) 如 果 Product 关 系 中 有 某 个 型 号 和 它 的 类 型 ， 则 该 型 号 必须 也 出 现在 适合 该 类 型 的 关系 中 。 
习题 7.4.2 将 如 下 要 求 写成 断言 。 数 据 库 模式 是 习题 2.4.3 中 的 战舰 例子 。 

Classes(class, type, country, numGuns, bore, displacement) 

Ships (name, class, launched) 


Battles (name, date) 
Qutcomes(ship, battle, result) 


a) 同一 类 型 的 舰 船 不 能 多 于 2 艘 。 
!b) 同一 国家 不 能 同时 具有 战列舰 和 巡洋舰 。 
!c) 战斗 中 ， 多 于 9 门 火炮 的 战 船 不 能 被 少 于 9 门 火炮 的 战 船 击 沉 。 
!d) 没有 船 可 以 比 与 类 同名 的 船只 早 下 水 。 
le) 对 每 个 类 ， 应 该 有 一 稻 船 具有 该 类 的 名 字 。 
! 习 题 7.4.3 习题 7.1.1 的 断言 可 以 写成 两 个 基于 元 组 的 约束 。 请 给 出 该 约束 。 


7.5 触发 器 


触发 器 (trigger) 有 时 也 称 作 事件 一 条 件 一 动作 规则 (event-condition-action rule) ， 或 者 
ECA 规 则 。 触 发 器 与 前 面 已 介绍 的 几 种 约束 有 如 下 三 点 不 同 。 

1. 仅 当 数 据 库 程序 员 声 明 的 事件 发 生 时 ， 触 发 器 被 激活 。 所 允许 的 事件 种 类 通常 是 对 某 
个 特定 关系 的 插入 、 删 除 或 修改 。 很 多 SQL 系 统 中 允许 的 另 一 种 事件 是 事务 的 结束 。 

2. 当 触 发 器 被 事件 激活 时 ， 触 发 器 测试 触发 的 条 件 (condiction)。 如 果 条 件 不 成 立 ， 则 
响应 该 事件 的 触发 器 不 做 任何 事情 。 

3. 如 果 触 发 器 声明 的 条 件 满足 ， 则 与 该 触发 器 相连 的 动作 (action) 由 DBMS 执 行 。 动 作 
可 以 是 以 某 种 方式 修改 事件 的 结果 ， 甚 至 可 以 是 撤销 事件 所 在 的 事务 。 事 实 上 ， 动 作 可 以 是 
任何 数据 库 操作 序列 ， 包 括 与 触发 事件 毫 无 关联 的 操作 。 


7.5.1 SQL 中 的 触发 器 

SQL 触 发 器 语句 在 事件 、 条 件 和 动作 等 部 分 都 为 用 户 提供 了 多 种 选择 。 主 要 特征 有 : 

1. 触发 器 的 条 件 检查 和 触发 器 的 动作 可 以 在 触发 事件 执行 之 前 的 数据 库 的 状态 (state of 
the database) ( 即 当前 所 有 关系 的 实例 ) 上 或 在 触发 动作 被 执行 后 的 状态 上 执行 。 

2. 条 件 和 动作 可 以 引用 元 组 的 旧 值 和 /或 触发 事件 中 更 新 的 元 组 的 新 值 。 

3. 更 新 事件 可 以 被 局 限 到 某 个 特定 的 属性 或 某 一 些 属性 。 

4. 程序 员 可 以 选择 动作 执行 的 方式 : 

a) 一 次 只 对 一 个 更 新 元 组 (row-level trigger， 行 级 触发 器 ) ， 或 者 

b) 一 次 针对 在 数据 库 操作 中 被 改变 的 所 有 元 组 (statement-level trigger， 语 自 级 触发 
器 ; 记 住 一 个 SQL 更 新 语句 可 以 影响 许多 元 组 )。 

在 对 触发 器 给 出 语法 细节 之 前 ， 先 来 看 一 个 说 明 最 重要 的 语法 和 语义 点 的 例子 。 注 意图 
7-5 给 出 的 触发 器 示例 中 键 元 素 和 其 出 现 的 顺序 : 

a) CREATE TRIGGER 语 句 (第 (1) 行 )。 
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b) 指 出 触发 事件 并 告诉 触发 器 是 在 触发 事件 之 前 还 是 之 后 使 用 数据 库 状态 的 子 句 (第 (2) 行 )。 

c) REFERENCING 子 句 允许 触发 器 的 条 件 和 动作 引用 正 被 修改 的 元 组 (第 (3) 至 第 (5) 行 )。 
在 更 新 的 情况 下 ， 例 如 本 例 ， 该 子 句 允许 给 在 改变 之 前 和 之 后 的 元 组 命名 。 

d) 告诉 触发 器 只 对 每 个 修改 的 行 执行 一 次 ， 还 是 对 由 SQL 语句 作 的 所 有 修改 执行 一 次 的 
子 句 (第 (09) 行 )。 

e) 使 用 保留 字 WMHEN 和 还 辑 表达 式 的 条 件 (第 (7) 行 )。 

f) 由 一 个 或 多 个 SQL 语句 组 成 的 动作 (第 (8) 至 第 (10) 行 )。 

上 述 每 个 元 素 都 有 选项 ， 这 将 在 该 例子 之 后 讨论 。 

例 7.13 图 7-5 是 一 个 应 用 在 下 面 MovieExec 表 上 的 SQL 触发 器 ， 


MovieExec(name, address, cert#, netWorth) 


当 修 改 netWorth 属 性 时 ， 激 活 触发 器 。 该 触发 器 的 作用 是 阻挠 降低 电影 制作 人 净 资 产值 的 企图 。 


CREATE TRIGGER NetWorthTrigger 
AFTER UPDATE OF netWorth ON MovieExec 
REFERENCING 

0LD ROW AS OldTuple, 

NEW ROW AS NewTuple 


FOR EACH ROW 

WHEN (01dTuple.netWorth > NewTuple.netWorth) 
UPDATE MovieExec 
SET netWorth = 01dTuple .netWorth 
WHERE cert# = NewTuple.cert#; 





图 7-5 SQL 触发 器 


第 (1D) 行 用 保留 字 CREATE TRIGGER 和 触发 器 名 引入 触发 声明 。 第 (2) 行 给 出 名 为 MovieExec 
关系 的 netWorth 属 性 被 修改 的 触发 事件 。 第 (3) 到 第 (5) 行 建立 了 一 种 在 触发 的 条 件 和 动作 部 分 
声明 旧 元 组 (修改 前 的 元 组 ) 和 新 元 组 (修改 后 的 元 组 ) 的 方法 。 根 据 第 (4) 行 和 第 (5) 行 的 声 
明 ， 新 旧 元 组 分 别 用 NewTuple 和 01dTuple 引 用 。 在 条 件 和 动作 中 ， 这 些 名 字 就 如 同 通常 SQL 
查询 的 FROM 短 语 中 的 元 组 变量 声明 一 样 使 用 。 

第 (9) 行 的 FOR EACH ROW 短 语 表达 了 该 触发 器 是 每 修改 一 个 元 组 执行 一 次 的 方式 。 第 (7) 行 
是 触发 的 条 件 。 声 明 动 作 的 执行 仅仅 当 新 的 净 资 产值 低 于 旧 的 净 资 产值 时 ， 触 发 器 被 激活 。 
也 就 是 制 片 人 净 资 产值 收缩 的 时 候 被 激活 。 

第 (8) 到 第 (10) 行 是 动作 部 分 。 该 动作 是 通常 的 SQL 修 改 语句 ， 其 作用 是 把 制 片 人 的 净 资 产 
值 重新 还 原 为 修改 前 的 值 。 注 意 ， 原 则 上 认为 每 个 MovieExec 的 元 组 都 要 被 修改 ， 但 是 第 (10) 
行 的 WHERE 短 语 保 证 了 该 动作 仅仅 只 对 那些 被 修改 的 元 组 ( 即 只 与 新 元 组 的 cert# 值 相等 的 元 组 ) 
有 作用 。 口 


7.5.2 触发 器 设计 的 选项 
当然 ， 例 7.13 仅 仅 解 释 了 SQL 触发 器 的 一 部 分 特征 。 下 面 将 概述 触发 器 提供 的 选项 ， 以 及 
这 些 选 项 如 何 表达 。 
。 通 过 保留 字 AFTER， 图 7-5 中 的 第 (2) 行 指出 该 规则 的 条 件 测试 和 动作 将 在 触发 事件 之 后 的 
数据 库 状 态 上 被 执行 。AFTER 可 以 用 BEF0RE 替 换 ， 替 换 后 ，WHEN 条 件 将 在 触发 事件 执行 
之 前 的 数据 库 状 态 上 测试 。 如 果 条 件 是 真 ， 则 在 该 状态 上 执行 触发 器 的 动作 。 最 后 ， 执 
行 唤醒 触发 器 的 事件 ， 不 管 条 件 是 否 仍然 为 真 。 另 一 选项 INSTEAD OF 将 在 8.2.3 节 中 讨 
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论 ， 它 与 视图 的 修改 有 关 。 

。 除 了 UPDATE 之 外 ， 其 他 可 能 的 触发 事件 是 INSERT 和 DELETE。 图 7-5 中 第 (2) 行 中 OF 
netWorth 短 语 是 UPDATE 事 件 的 可 选项 ， 若 给 出 该 选项 ， 那 么 它 定义 的 事件 仅仅 是 0F 保 
留 字 后 列 出 的 属性 (组 ) 的 修改 。0F 短 语 在 INSERT 或 DELETE 事 件 中 不 可 使 用 ， 因 为 这 
两 个 事件 都 是 作用 在 整个 元 组 上 。 

。WHEN 短 语 是 可 选项 。 如 果 该 短语 缺 省 ， 则 只 要 触发 器 被 唤醒 ， 都 要 执行 动作 。 若 有 该 短 
语 ， 则 仅 当 WHEN 后 的 条 件 为 真 时 执行 动作 。 

。 虽 然 在 例子 中 只 显示 了 单个 SQL 语 名 作为 动作 ， 但 实际 上 ， 动作 可 以 是 任意 多 个 这 样 的 

语句 组 成 。 这 些 语句 需 由 BEGIN.. .END 括 起 ， 并 且 语 句 之 间 用 分 号 分 隔 。 

。 当 行 级 触发 器 的 触发 事件 是 修改 时 ， 则 有 旧 元 组 和 新 元 组 之 分 ， 分 别 表示 修改 之 前 和 修 

改 之 后 的 元 组 。 它 们 是 用 0LD ROW AS 和 NEW ROW AS 短语 命名 ， 如 同 第 (4) 行 和 第 (5) 行 
中 所 见 。 如 果 触 发 事件 是 插入 ， 则 使 用 NEW ROW AS 短语 命名 被 插入 的 元 组 ， 而 0LD 
ROW AS 不 可 使 用 。 相 反 ， 删 除 时 ，0LD ROW AS 被 用 于 命名 被 删除 的 元 组 ， 而 NEW ROW 
AS 不 可 使 用 。 

。 如 果 忽略 第 (6) 行 的 FOR EACH RON， 或 用 默认 的 FOR EACH STATEMENT 替 代 它 ， 则 图 7-5 中 
的 行 级 触发 器 就 变 成 了 语句 级 触发 器 。 一 旦 有 合适 类 型 的 语句 被 执行 ， 语 句 级 触发 器 就 
被 执行 ， 而 不 问 它 实 际 上 会 影响 多 少 元 组 一 一 零 个 、 一 个 或 多 个 。 例 如 ， 如 果 用 SQL 更 
新 语句 更 新 整个 表 ， 语 句 级 的 修改 触发 器 将 只 执行 一 次 ， 而 元 组 级 触发 器 将 对 要 修改 的 
元 组 一 次 一 个 地 执行 。 

* 在 语句 级 触发 器 中 ， 不 能 像 第 (9 行 和 第 (5) 行 那样 直接 引用 旧 的 和 新 的 元 组 。 可 是 ， 任 何 
触发 器 一 一 无 论 是 元 组 级 或 语句 级 一 一 都 可 以 引用 虽 元 组 (old tuple， 删 除 的 元 组 或 更 
新 的 元 组 的 旧版 本 ) 的 关系 和 新 元 组 (new tuple， 插 人 元 组 或 更 新 元 组 的 新 版 本 ) 的 关 
系 ， 声 明 方式 是 用 保留 字 0LD TABLE AS 01dStuff 和 NEW TABLE AS NewSuff。 

例 7.14 假定 要 阻止 电影 制作 人 的 平均 净 资 产值 降 到 $500 000。 在 对 关系 
MovieExec(name, address, cert#, netWorth) 

的 netWorth 列 做 插入 、 删 除 或 修改 时 可 能 会 违反 上 述 约束 。 

该 例 的 细微 之 处 是 ， 可 以 在 一 个 语句 中 插入 、 删 除 或 改变 MovieExec 的 许多 元 组 。 在 修改 
期 间 ， 平 均 净 资产 值 可 以 暂时 地 低 于 $500 000， 然 后 ， 当 所 有 变更 结束 时 ， 其 净 资 产值 将 超 
过 $500 000。 约 束 要 做 的 工作 是 ， 若 语句 执行 结束 后 ， 净 资产 值 仍 然 是 低 于 $500 000， 则 整个 
一 组 更 新 操作 被 拒绝 。 

对 于 关系 MovieExec 的 插入 、 删 除 和 修改 这 三 个 事件 有 必要 分 别 写 一 个 触发 器 。 图 7-6 给 
出 了 修改 事件 的 触发 器 。 插 入 和 删除 事件 的 触发 器 与 此 类 似 。 

图 中 第 (3) 到 第 (5) 行 声明 的 NewStuff 和 01dStuff 分 别 是 包含 新 元 组 和 旧 元 组 的 关系 名 ， 这 
些 元 组 是 唤醒 上 述 触 发 器 操作 涉及 的 数据 库 元 组 。 注 意 ， 一 个 数据 库 语句 可 以 更 新 关系 的 很 
多 元 组 ， 所 以 ， 如 果 执 行 这 样 的 语句 ， 在 NewStuff 和 01dStuff 中 可 能 有 很 多 元 组 。 

如 果 是 修改 操作 ， 则 NewStuff 和 01dStuff 中 分 别 是 被 修改 元 组 的 新 版 本 和 有 旧 版本。 如果 
类 似 地 写 出 删除 触发 器 ， 则 删除 元 组 在 01dStuff 中 ， 不 需要 像 本 触发 器 那样 为 NEW TABLE 声 
明 NewStuf。 同 样 ， 在 类 似 的 插入 触发 器 中 ， 新 元 组 在 NewStuff 中 ， 也 不 需要 声明 OldStuff。 

第 (6) 行 声明 表示 本 触发 器 的 执行 是 一 次 一 语句 ， 而 不 管 有 多 少 元 组 被 修改 。 第 (7) 行 是 条 
件 ， 声 明 如 果 修 改 之 后 平均 净 资 产值 少 于 $500 000 则 条 件 成 立 。 
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CREATE TRIGGER AvgNetWorthTrigger 
AFTER UPDATE OF netWorth ON MovieExec 
REFERENCING 

0LD TABLE AS OldStuff, 

NEW TABLE AS NewStuff 
FOR EACH STATEMENT 


WHEN (500000 > (SELECT AVG(netWorth) FROM MovieExec)) 
BEGIN 
DELETE FROM MovieExec 
WHERE (name, address, cert#, netWorth) IN NewStuff; 
INSERT INTO MovieExec 
(SELECT * FROM 01dStuff) ; 
END ; 





图 7-6 平均 净 资 产值 约束 


第 (8) 到 第 (13) 行 是 动作 ， 由 两 个 语句 组 成 。 当 WHEN 短语 中 的 条 件 成 立时 ， 即 新 的 平均 值 太 
低 时 ， 该 语句 将 恢复 关系 MovieExec 的 原 有 值 。 第 (9) 到 第 (10) 行 删除 所 有 新 元 组 ， 即 被 修改 过 
的 元 组 版 本 。 而 第 (11) 到 第 (12) 行 恢复 修改 之 前 的 值 。 口 

例 7.15 BEFORE 触发 器 的 重要 用 途 ， 是 在 播 入 元 组 之 前 以 某 种 方式 处 理 被 插入 的 元 组 。 
假设 对 关系 

Movies(title, year, length, genre, studioName, producerC#) 
插入 电影 元 组 ， 但 有 了 时候 不 知道 该 电影 的 年 份 。 由 于 year 是 主键 的 一 部 分 ， 该 属性 不 能 为 
NULL。 但 是 ， 可 以 用 触发 器 确保 year 非 空 ， 用 某 个 适当 值 奉 代 NULL， 它 也 可 能 是 用 复杂 方法 
计算 出 来 的 值 。 图 7-7 是 一 个 采用 简单 权宜 的 方法 用 1915 替 代 NULL 的 触发 器 (有 的 可 用 默认 值 
处 理 ， 这 将 作为 一 个 例子 ) 。 





CREATE TRIGGER FixYearTIigger 
BEFORE INSERT ON Movies 
REFERENCING 

NEW ROW AS NewRow 


NEW TABLE AS NewStuff 
FOR EACH ROW 
WHEN NewRow.year IS NULL 
UPDATE NewStuff SET year = 1915; 





图 7-7 处 理 被 插入 元 组 的 空 值 


第 (2) 行 指出 在 插入 事件 之 前 执行 该 条 件 和 动作 。 第 (G3) 到 第 (5) 行 的 引用 短语 为 将 被 插入 的 
新 元 组 和 仅 由 该 元 组 组 成 的 表 定 义 名 字 。 虽 然 触 发 器 一 次 执行 一 个 插入 元 组 [因为 第 (6) 行 声明 
该 触发 器 为 行 级 触发 器 ]， 但 第 (7) 行 的 条 件 需要 能 引用 被 插入 元 组 的 属性 ， 第 (8) 行 的 动作 为 了 
描述 修改 需要 引用 表 。 口 


7.5.3 习题 
习题 7.5.1 对 MovieExec 的 删除 和 插入 事件 编写 类 似 于 图 7-6 的 触发 器 。 
习题 7.5.2 ”将 如 下 要 求 写成 触发 器 。 在 每 种 情况 中 ， 如 果 不 满 足 声 明 的 约束 ， 则 拒绝 或 撤销 更 新 。 数 


据 库 模 式 是 习题 2.4.1 中 的 “PC” 例 子 。 
Product (maker, model, type) 
PC(model, speed, ram, hd, price) 
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Laptop(model, speed, ram, hd, screen, price) 
Printer (model, color, type, price) 


a) 当 修 改 PC 的 价格 时 ， 检 查 不 存在 速度 与 其 相同 但 价格 更 低 的 PC 机 。 
b) 插入 新 打印 机 时 ， 检 查 其 型 号 是 否 已 在 Product 中 存在 。 
!c) 当 对 Laptop 关 系 做 任何 更 新 时 ， 要 求 每 个 制造 商 生 产 的 笔记 本 电脑 的 平均 价格 至 少 是 $1500。 
!d) 当 修 改 任何 PC 机 的 RAM 或 硬盘 时 ， 要 求 被 修改 的 PC 机 的 硬盘 至 少 是 RAM 的 100 倍 。 
!e) 当 插入 新 的 PC、 笔 记 本 电脑 或 打印 机 时 ， 要 确保 型 号 与 以 前 已 有 的 PC、 笔 记 本 电脑 或 打印 机 型 
号 不 重复 。 
习题 7.5.3 ”将 如 下 要 求 写成 触发 器 。 在 每 种 情形 ， 如 果 不 满足 描述 的 约束 ， 则 拒绝 或 撤销 相应 的 更 新 。 
数据 库 模式 是 习题 2.4.3 中 的 战舰 例子 。 


Classes(class, type, country, numGuns, bore, displacement) 
Ships (name, class, launched) 

Battles(name, date) 

Dutcomes(ship, battle, result) 


a) 当 插 入 一 新 类 到 C1lasses 时 ， 也 插入 一 县 有 该 类 名 字 和 NULL 下 水 日 期 的 舰 船 。 
b) 允许 插入 一 排水 量 超过 35 000 吨 的 新 类 ， 但 是 要 改变 其 排水 量 为 35 000。 
!c) 当 插入 0utcomes 元 组 时 ， 要 分 别 检查 Ships 和 Batt1es 关 系 中 的 船 与 战役 元 组 。 如 果 没 有 这 样 的 
船 和 战役 存在 ， 则 在 这 些 关系 中 插入 相应 元 组 ， 其 中 不 确定 的 属性 要 赋 以 NULL 值 。 
!d) 当 对 Ships 进 行 插入 操作 或 修改 Ships 的 class 属 性 时 ， 要 求 没 有 国家 拥有 超过 20 稻 以 上 的 船 。 
te) 在 所 有 可 能 引起 违反 约束 的 环境 下 检查 ,没有 船 可 以 在 此 船 被 击 沉 之 后 又 出 现在 战役 中 。 
! 习 题 7.5.4 ”将 如 下 要 求 编写 为 触发 器 。 在 每 种 情况 ， 如 果 不 满足 要 求 的 约束 ， 则 拒绝 或 撤销 相应 的 更 
新 。 所 有 要 求 是 在 有 关 电 影 例子 的 关系 上 提出 。 


Movies(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieStar (name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 


你 可 以 假定 所 有 条 件 在 数据 库 被 改变 之 前 成 立 。 另 外 ， 系 统 宁可 选择 更 新 数据 库 ， 即 使 是 用 NULL 值 
或 缺 省 值 插入 元 组 ， 也 不 拒绝 更 新 。 

a) 保证 在 所 有 时 间 里 ， 任 何在 StarsIn 中 出 现 的 影星 也 出 现在 MovieStar 中 。 

b) 保证 在 所 有 时 间 里 ， 每 个 电影 制 片 人 是 一 电影 公司 经 理 、 电 影 制 片 人 或 二 者 兼 而 有 之 。 

c) 保证 每 个 电影 至 少 有 一 个 男 明星 和 一 个 女 明星 。 

d) 保证 在 任 一 年 ， 任 何 电影 公司 制作 的 电影 数量 不 能 多 于 100。 

e) 任 一 年 中 制作 的 所 有 电影 的 平均 长 度 不 超过 120。 


7.6， 小 结 


。3 引 用 完整 性 约束 (Referential-Integrity Constraint): 可 以 声明 出 现在 某 个 属性 或 一 组 属 
性 中 的 值 ， 必 须 也 出 现在 同一 个 关系 或 另 一 个 关系 的 某 个 元 组 相应 的 属性 (组 ) 中 。 为 
此 ， 在 关系 模式 中 使 用 REFERENCES 或 FOREIGN KEY 声 明 。 

。 基 于 属性 的 检查 约束 (Attribute-Based Check Constraint) ， 关系 模式 属性 声明 的 后 面 加 
保留 字 CHECK 和 要 检查 的 条 件 ， 可 以 实现 对 属性 值 的 约束 。 

。 基 于 元 组 的 检查 约束 (Tuple-Based Check Constraint) : 通过 在 关系 本 身 的 声明 中 加 
CHECK 保 留 字 和 要 检查 的 条 件 ， 可 以 实现 对 关系 元 组 的 约束 。 

。 修 改 约 束 (Modifying Constraint) ， 用 ALTER 语 句 为 适当 的 表 添 加 或 删除 基于 元 组 的 检查 约束 。 
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。 断 言 (Assertion) ， 可 以 声明 断言 为 数据 库 模 式 的 元 素 。 该 声明 给 出 一 个 要 检查 的 条 件 。 
该 条 件 可 以 涉及 一 个 或 多 个 数据 库 模 式 关 系 ， 还 可 以 将 整个 关系 作为 一 个 整体 〈 例 如 ， 
用 聚集 )， 也 可 以 只 对 单个 的 元 组 。 

。 激 活检 查 (Invoking the Check): 断言 涉及 的 关系 被 改变 时 ， 断 言 声明 的 条 件 被 检查 。 
基于 属性 和 基于 元 组 的 检查 仅仅 当 属性 或 关系 用 插入 或 修改 操作 改变 时 被 检查 。 因 此 ， 
这 些 约束 有 子 查 询 时 被 违反 。 

。 触 发 器 (Trigger) : SQL 标准 包括 触发 器 ， 它 指明 唤醒 该 触发 的 特定 事件 〈 例 如 ， 对 某 
个 关系 的 插入 、 删 除 或 修改 )。 一 旦 触发 器 被 唤醒 ， 触 发 的 条 件 便 被 检查 。 如 果 条 件 是 
真 ， 则 指明 的 动作 序列 (SQL 语句 ， 如 查询 和 数据 库 更 新 ) 将 被 执行 。 
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第 8 章 视图 与 索引 


本 章 首先 介绍 虚拟 视图 ， 虚 拟 视图 是 由 其 他 关系 上 的 查询 所 定义 的 一 种 关系 。 虚 拟 视图 
并 不 在 数据 库 中 进行 存储 ， 但 是 可 以 对 其 进行 查询 ， 就 好 像 它 确实 被 存储 在 数据 库 中 一 样 。 
查询 处 理 器 会 在 执行 查询 时 用 视图 的 定义 来 替换 视图 。 

视图 也 可 以 被 物化 ， 即 它们 从 数据 库 中 定期 地 进行 构造 并 存储 。 物 化 视图 可 以 加 速 查询 
的 执行 。 其 中 一 种 非常 重要 的 “物化 视图 ”类 型 是 索引， 索引 是 一 种 被 存储 在 数据 库 中 的 数 
据 结构 ， 它 可 以 加 速 对 存储 的 关系 中 特定 元 组 的 访问 。 本 章 也 将 介绍 索引 ， 并 探讨 在 存储 的 
表 上 选择 合适 索引 的 原则 。 


8.1 虚拟 视图 


用 CREATE TABLE 语 句 定义 的 关系 实际 存储 在 数据 库 中 。 也 就 是 说 ，SQL 系 统 以 物理 组 
织 的 方式 存储 这 些 表 。 它 们 是 持久 的 ， 除 非 对 它们 显 式 地 调用 SQL 更 新 语句 进行 更 改 ， 否 则 
它 将 无 限期 地 存在 且 保 持 不 变 。 

还 有 另 一 类 称 为 (虚拟) 视图 (virtual view) 的 SQL 关系 ， 它 们 并 不 以 物理 的 形式 存在 。 
而 且 ， 视 图 通过 类 似 查 询 的 表达 方式 定义 。 可 以 将 视图 当 作物 理 存在 进行 查询 ， 在 某 些 情况 
下 ， 视 图 也 可 以 更 新 。 

8.1.1 视图 定义 
最 简单 的 视图 定义 如 下 : 


CREATE VIEW < 视图 名 > AS < 视图 定义 >; 


视图 定义 是 一 个 SQL 查询 。 


关系 、 表 和 视图 
SQL 程序 员 倾 向 于 使 用 术语 “ 表 ” 来 代替 “关系 " 。 因 为 区 分 存储 的 关系 和 虚拟 的 关系 
非常 重要 ， 前 者 是 “ 表 "， 而 后 者 是 “视图 " 。 现 在 既然 已 经 知道 表 和 视图 的 区 别 ， 我 们 将 
在 使 用 表 或 者 视图 的 情况 下 用 术语 “关系 "。 当 想 强调 一 个 关系 是 被 存储 的 而 不 是 一 个 视图 


时 ， 有 时 会 用 到 术语 “基本 关系 ”或 者 “基本 表 ”。 
还 存在 第 三 种 关系 ， 它 既 不 是 视图 也 不 是 永久 存储 的 关系 。 这 些 关系 是 一 些 暂时 性 的 
结果 ， 它 们 可 能 为 一 些 子 查询 构造 。 这 些 临时 性 的 关系 也 被 后 继 操 作 当 作 “ 关 系 ” 来 处 理 。 


例 8.1 假设 想 有 个 视图 是 关系 

Movies(title, year, length, genre, studioName, producerC#) 
的 一 部 分 ， 它 由 Paramount Studios 制 作 的 所 有 电影 的 片 名 和 年 份 所 组 成 。 可 以 按 如 下 的 语 名 
来 定义 这 个 视图 ; 

1) CREATE VIEW ParamountMovies AS 

2) SELECT title, year 


3) FROM Movies 
4) WHERE studioName = :Paramount’; 
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首先 ， 在 第 (1) 行 中 给 出 了 视图 的 名 字 ParamountMovies。 在 第 (2) 行 中 列 出 了 视图 的 属性 ， 
即 tit1e 和 year。 视 图 的 定义 是 第 (2) 到 第 (4) 行 的 查询 。 口 

例 8.2 ”现在 用 一 个 更 加 复杂 的 查询 来 定义 视图 。 定 义 的 目标 是 建立 一 个 包含 电影 名 和 制 
片 人 姓名 的 关系 MovieProd。 该 查询 定义 的 视图 涉及 两 个 关系 : 


Movies(title, year, length, genre, studioName, producerC#) 
MovieExec(name, address, cert#, netWorth) 


CREATE VIEW MovieProd AS 
SELECT title, name 


FROM Movies, MovieExec 
WHERE producerC# = cert#; 


查询 首先 对 关系 Movies 和 MovieExec 按 授权 证 书号 进行 等 值 连接 ， 然后 从 中 抽取 出 电影 片 名 
和 制 片 人 姓名 元 组 对 。 口 


8.1.2 视图 查询 
视图 可 以 像 一 个 被 真正 存储 的 表 一 样 来 查询 。 在 对 视图 的 查询 中 ，FROM 子 句 后 面 接 的 是 
视图 名 ， 查 询 的 处 理 过 程 实际 上 是 由 DBMS 从 定义 该 虚拟 视图 的 关系 中 选择 出 所 需要 的 元 组 。 
例 8.3 可 以 把 视图 ParamountMovies 当 一 个 存储 的 表 来 查询 ， 例 如 
SELECT title 


FROM ParamountMovies 
WHERE year = 1979; 


该 示例 找 出 Paramount1979 年 制作 的 电影 。 口 


例 8.4 查询 中 可 以 同时 使 用 视图 和 基本 表 ， 下 面 给 出 一 个 例子 : 
SELECT DISTINCT starName 

FROM ParamountMovies, StarsIn 

WHERE title = movieTitle AND year = movieYear; 


该 查询 找 出 所 有 在 Paramount 制 作 的 电影 中 的 演员 姓名 。 口 
解释 包含 虚拟 视图 查询 的 最 简单 方式 是 将 FROM 子 句 后 面 的 视图 用 等 价 的 视图 定义 子 查 询 
来 替换 。 该 子 查 询 后 面 跟 一 个 元 组 变量 ， 因 此 可 以 引用 视图 的 元 组 。 例 如 ， 例 8.4 的 查询 可 以 
看 作 图 8-1 的 查询 。 
SELECT DISTINCT starName 


FROM (SELECT title, year 
FROM Movies 


WHERE studioName = ’Paramount’ 
) Pm, StarsIn 
WHERE Pm.title = movieTitle AND Pm.year = movieYear; 





图 8-1 将 虚拟 视图 解释 为 子 查询 


8.1.3 属性 重 命名 

有 了 时， 人 们 不 想 用 来 自视 图 定义 中 的 查询 的 属性 名 ， 而 更 愿意 选用 自己 定义 的 属性 名 。 
此 时 就 会 用 到 属性 重 命名 。 可 以 在 CREATE VIEW 语句 的 视图 名 字 之 后 加 上 一 对 圆 括号 ， 将 视图 
的 属性 对 应 地 填写 在 括号 内 ， 并 用 逗号 分 隔 。 例 如 ， 将 例 8.2 的 视图 定义 重 写 如 下 : 


CREATE VIEW MovieProd(movieTitle, prodName) AS 
SELECT title, name 
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FROM Movies，MovieExec 
WHERE producerC# = cert#; 
该 视图 实质 内 容 与 例 8.2 一 致 ， 但 是 视图 的 列 头 由 原来 的 tit1e 和 name 变 为 movieTit1e 和 


prodName 。 


8.1.4 习题 
习题 8.1.1 从 如 下 的 基本 表 构造 以 下 视图 ， 


MovieStar (name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) 


a) 视图 RichExec 给 出 了 所 有 资产 在 $10 000 000 以 上 的 制 片 人 的 名 字 、 地 址 、 证 书号 和 资产 。 

b) 视图 StudioPress 给 出 了 既是 电影 公司 经 理 (Studio president) 又 是 制 片 人 (Movie Executive) 的 那 
些 人 的 名 字 、 地 址 和 证 书号 。 

c) 视图 ExecutiveStar 给 出 了 既是 制 片 人 又 是 演员 的 那些 人 的 名 字 、 地 址 、 性 别 、 生 日 、 证 书号 和 
资产 总 值 。 

习题 8.1.2 不 用 基本 表 ， 只 用 一 个 或 多 个 习题 8.1.1 中 的 视图 ， 写 出 下 面 的 每 个 查询 

a) 找 出 既是 演员 又 是 制 片 人 的 女性 姓名 。 

b) 找 出 是 电影 公司 经 理 ， 同 时 资产 至 少 有 $10 000 000 的 制 片 人 名 字 。 

!c) 找 出 是 演员 同时 资产 至 少 有 $50 000 000 的 电影 公司 经 理 名 字 。 


8.2 视图 更 新 


在 某 些 特 定 条 件 下 可 以 对 视图 进行 插入 、 删 除 和 修改 。 这 种 说 法 听 起 来 设 什么 意义 ， 因 
为 视图 不 像 基本 表 (存储 关系 ) 那样 实际 存在 。 那 么 插入 元 组 到 视图 里 面 意味 着 什么 ? 插入 
的 元 组 放 到 哪里 了 ? 数据 库 系 统 怎么 记 住 这 个 操作 ? 

对 于 多 数 视图 ， 答 案 是 “不 能 这 样 做 ”"。 然 而 ， 对 于 一 些 充 分 简单 的 视图 ， 有 了 时 也 称 为 可 
更 新 视图 (updatable views)， 可 以 把 对 视图 的 更 新 转变 成 一 个 等 价 的 对 基本 表 的 更 新 ， 更 新 
操作 最 终 作用 在 基本 表 上 。 此 外 ,“ 替 换 ” 触 发 器 可 以 将 视图 上 的 更 新 转变 为 基本 表 上 的 更 新 。 
利用 这 各 方式， 程序 员 就 能 够 强制 地 对 任何 要 求 进行 更 新 的 视图 进行 操作 。 


8.2.1 视图 删除 
视图 更 新 的 一 个 极端 情况 是 删除 视图 。 更 新 操作 是 否 可 以 执行 取决 于 视图 是 否 可 更 新 。 
一 个 典型 的 DROP 语 名 是: 


DROP VIEW ParamountMovies ; 

注意 ， 这 条 语句 删除 了 视图 的 定义 ， 因 此 不 再 能 对 该 视图 进行 查询 或 修改 操作 。 但 是 ， 
删除 视图 并 不 会 影响 基本 关系 Movies 中 的 任何 元 组 。 相 反 ， 

DROP TABLE Movies 
不 但 使 得 表 Movies 从 此 消失 ， 也 使 得 视图 ParamountMovies 不 可 用 ， 这 是 因为 使 用 该 视图 的 
查询 会 间接 地 引用 一 个 不 存在 的 关系 Movies 。 


8.2.2 可 更 新 视图 

当 视图 的 修改 操作 被 允许 时 ，SQL 提 供 了 一 个 形式 定义 。 该 SQL 的 语法 规则 很 复杂 ， 但 
是 粗略 地 讲 ， 它 允许 这 样 的 视图 更 新 操作 : 该 视图 是 由 从 单个 关系 R (RR 本身 也 可 能 是 一 个 可 
更 新 视图 ) 选取 出 (用 SELECT 关 键 字 ， 而 非 SELECT DISTINCT) 的 一 些 属性 组 成 。 这 里 有 三 
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个 很 重要 的 技术 要 点 : 
“WHERE 子 句 在 子 查询 中 不 能 使 用 关系 R。 
。 FROM 语 句 只 能 包含 一 个 关系 R， 不 能 再 有 其 他 关系 。 
。SELECT 语 句 中 的 属性 列表 必须 包括 足够 多 的 属性 ， 以 保证 对 该 视图 进行 元 组 插入 时 ， 
能 够 用 NULL 或 者 适当 的 默认 值 来 填充 所 有 其 他 不 属于 该 视图 的 属性 。 比 如 ，SELECT 语 名 
中 不 允许 包括 被 定义 为 非 空 或 者 没有 默认 值 的 属性 。 
视图 上 的 一 个 插入 操作 可 以 直接 应 用 到 基本 关系 R。 仅 有 的 细微 差别 是 ， 这 里 视图 SELECT 
子 句 中 的 属性 是 提供 值 的 属性 。 


例 8.5 假设 在 例 8.1 中 的 视图 ParamounMovies 中 插入 一 个 元 组 : 
INSERT INTO ParamountMovies 
VALUES(’Star Trek’, 1979); 


视图 ParamountMovie 满 足 SQL 的 可 更 新 条 件 ， 因 为 视图 只 包含 了 如 下 的 基本 表 部 分 元 组 的 部 
分 分 量 : 
Movies(title, year, length, genre, studioName, producerC#) 


对 视图 ParamountMovies 的 插入 操作 就 好 像 对 关系 Movies 执 行 如 下 的 插入 : 
INSERT INTO Movies(title, year) 
VALUES(’Star Trek’, 1979); 


注意 title 和 year 属 性 必须 被 指定 在 插入 操作 中 ， 因 为 这 里 不 能 给 关系 Movies 的 其 他 属性 提 
供 值 。 

插入 到 Movies 中 的 元 组 ，title 值 为 “Star Trek”，year 值 为 1979， 其 他 属性 的 值 为 
NULL。 令 人 奇怪 的 是 ， 被 插入 的 元 组 由 于 它 的 属性 studioName 的 值 为 NULL ， 不 满足 视图 
ParamountMovies 的 选择 条 件 ， 因 此 ， 被 插入 的 元 组 不 会 对 视图 有 任何 影响 。 例 如 ， 例 8.3 中 
的 查询 不 会 检索 出 元 组 (”Star Trek”,1979)。 

要 解决 这 个 明显 不 合 常理 的 现象 ， 可 以 向 定义 视图 的 SELECT 语句 中 加 入 studioName 属 性 : 

CREATE VIEW ParamountMovies AS 

SELECT studioName, title, year 


FROM Movies 
WHERE studioName = ’Paramount’; 


然后 ， 向 视图 中 插入 Star-Trek 元 组 : 

INSERT INTO ParamountMovies 

VALUES(’Paramount’, ’Star Trek’, 1979); 
这 个 插入 同 下 面 的 插入 操作 对 于 关系 Movies 有 同样 的 效果 : 

INSERT INTO Movies(studioName, title, year) 

VALUES(’?Paramount’, ’Star Trek’, 1979); 
注意 结果 元 组 ， 虽 然 不 在 视图 SELECT 后 面 列 出 的 属性 会 具有 NULL 值 ， 但 是 该 插入 操作 确实 会 
为 视图 ParamountMovies 产 生 新 的 合适 的 元 组 。 口 

也 可 以 从 可 更 新 视图 中 删除 元 组 。 如 同 视图 的 插入 一 样 ， 删 除 操作 最 终 也 是 传递 到 基本 
关系 R 上 执行 。 然 而 ， 为 了 保证 删除 的 是 那些 只 能 在 视图 中 看 到 的 元 组 ， 要 把 视图 的 WHERE 语 
名 中 的 条 件 (用 AND) 添加 到 删除 操作 的 WHERE 子 名 中 。 

例 8.6 ”假设 要 删除 可 更 新 视图 ParamountMovies 中 所 有 电影 名 包含 字符 串 “Trek” 的 电 
影 ， 则 删除 语句 是 : 


DELETE FROM ParamountMovies 
WHERE title LIKE ’%Trek,’; 
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这 个 删除 将 被 转换 成 基本 表 Movies 的 一 个 等 价 删 除 ， 唯 一 的 差别 是 要 将 定义 视图 


ParamountMovies 的 条 件 添 加 到 该 删除 操作 的 WHERE 子 句 中 。 因 而 最 终 被 执行 的 删除 语句 如 下 : 
DELETE FROM Movies 
WHERE title LIKE !YTrek%，AND studioName = ’Paramount’; 口 


同样 地 ， 对 可 更 新 视图 的 修改 操作 也 是 通过 修改 定义 它 的 关系 完成 的 。 对 视图 的 修改 就 
是 修改 那些 基本 关系 中 的 相应 元 组 ， 从 而 引起 对 视图 元 组 的 修改 。 

例 8.7 考虑 如 下 的 视图 修改 : 

UPDATE ParamountMovies 


SET year = 1979 
WHERE title = ’Star Trek the Movie’; 


它 与 下 面 对 基 本 表 的 修改 等 价 。 

UPDATE Movies 

SET year = 1979 

WHERE title = ’Star Trek the Movie’ AND 

studioName = ’Paramount’; 口 

8.2.3 视图 中 的 替换 触发 器 

当 视 图 上 定义 了 一 个 触发 器 时 ， 可 以 用 INSTEAD OF 代替 BEFORE 或 AFTER。 如 果 这 样 做 ， 
那么 当 一 个 事件 唤醒 触发 器 时 ， 触 发 器 的 操作 将 会 取代 事件 本 身 而 被 执行 。 即 替换 触发 器 会 
拦截 任何 试图 对 视图 进行 修改 的 操作 ， 并 且 将 代替 它们 执行 任何 数据 库 设 计 者 认为 合适 的 操 
作 。 下 面 是 一 个 典型 的 例子 。 

为 什么 某 些 视图 是 不 可 更 新 的 

考虑 例 8.2 中 的 视图 , 它 将 电影 名 和 制 片 人 的 名 字 关 联 起 来 。 根 据 SQL 定 义 ， 这 个 视图 是 
不 可 更 新 的 ， 因 为 它 的 FROM 子 名 中 包含 两 个 关系 : Movies 和 MovieExec。 如 果 想 往 视 图 中 
插入 一 个 元 组 


(’Greatest Show on Earth’, ’Cecil B. DeMille’) 


就 必须 同时 往 关系 Movies 和 MovieExec 中 加 入 元 组 。 虽 然 可 以 给 属性 Tength 和 address 提 供 
缺 省 的 属性 值 ， 但 是 对 于 均 表 示 DeMi11e 未 知 证 书号 的 producerC# 和 cert# 两 个 相等 属性 却 
不 好 处 理 。 即 使 对 它们 都 使 用 相同 的 NULL 值 ， 由 于 SQL 不 认为 两 个 NULL 值 是 相等 的 〈 见 
6.1.6 节 )， 所 以 无 法 使 用 NULL 进 行 连 接 。 这 样 ， "Greatest Show on Earth” 不 会 和 视图 
MovieProd 中 的 “Cecil B.Demille” 关 联 。 于 是 插入 操作 不 成 功 。 





例 8.8 重新 考虑 例 8.1 中 视图 Paramount 的 定义 ， 它 描述 了 所 有 属于 Paramount 的 电影 。 


CREATE VIEW ParamountMovies AS 
SELECT title, year 
FROM Movies 
WHERE studioName = ’Paramount’; 


如 在 例 8.5 中 所 讨论 的 ， 该 视图 是 可 更 新 的 ， 但 是 它 有 个 让 人 意 想 不 到 的 缺陷 ， 即 当 向 
ParamountMovies 揪 入 一 个 元 组 时 ， 系 统 不 能 判断 属性 studioName 值 是 否 为 Paramount ， 所 以 
在 插入 后 的 Movies 元 组 中 ，studioName 的 值 为 NULL 。 

如 图 8-2 所 示 ， 如 果 在 该 视图 中 创建 一 个 替换 触发 器 ， 将 会 得 到 更 好 的 结果 。 该 触发 器 并 
不 令 人 觉得 突 元 。 第 (2) 行 中 的 关键 字 INSTEAD 0F 表 明 向 ParamountMovies 中 进行 的 插入 尝试 
将 永远 不 会 被 执行 。 
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而 第 (5) 行 和 第 (0) 行 就 是 用 于 替换 对 视图 插入 的 操作 。 有 一 个 对 关系 Movies 的 插入 操作 ， 并 列 
举 出 了 对 应 的 三 个 属性 。 属 性 title 和 属性 year 来 自 要 插入 视图 的 元 组 ， 即 在 第 (3) 行 声明 的 元 组 变 
量 NewRow。 属 性 studioName 的 值 是 常量 “Paramount"'。 这 个 值 不 是 插入 视图 元 组 的 一 部 分 。 可 以 假 
定 它 是 插入 到 关系 Movies 的 正确 的 电影 公司 名 ， 因 为 这 个 插入 操作 来 自视 图 ParamountMovies。 口 

CREATE TRIGGER ParamountInsert 


INSTEAD OF INSERT ON ParamountMovies 
REFERENCING NEW ROW AS NewRow 


FOR EACH ROW 


INSERT INTO Movies(title, year, studioName) 
VALUES (NewRow .title, NewRow.year, ’Paramount’); 





图 8-2 触发 器 用 对 基本 表 的 插入 代替 对 视图 的 插入 


8.2.4 习题 
习题 8.2.1 习题 8.1.1 中 的 哪些 视图 是 可 更 新 的 ? 
习题 8.2.2 如 果 创 建 视图 
CREATE VIEW DisneyComedies AS 
SELECT title, year, length FROM Movies 
WHERE studioName = ’Disney’ AND genre = ’comedy’; 
a) 该 视图 是 可 更 新 视图 吗 ? 
b) 写 一 个 替换 触发 器 用 于 处 理 对 于 该 视图 的 插入 操作 。 
c) 写 一 个 替换 触发 器 用 于 处 理 在 视图 中 修改 一 部 电影 (给 出 了 属性 title 和 year) 的 长 度 。 
习题 8.2.3 使 用 基本 表 


Product (maker, model, type) 

PC(model, speed, ram, hd, price) 

假设 创建 视图 : 

CREATE VIEW NewPC AS 

SELECT maker, model, speed, ram, hd, price 


FROM Product, PC 
WHERE Product .model = PC.model AND type = ’pc’; 


注意 ， 这 里 已 做 了 一 致 性 检查 : 模型 号 不 仅 出 现在 关系 PC 中 ， 而 且 关 系 Product 的 属性 type 表 明 该 产 
品 是 PC。 
a) 该 视图 是 可 更 新 视图 吗 ? 
b) 写 一 个 替换 触发 器 用 于 处 理 对 视图 的 插入 操作 。 
Ce 
) 写 一 个 替换 触发 器 用 于 处 理 从 视图 中 删除 一 个 特定 的 元 组 。 


8.3 SQL 中 的 索引 


关系 中 属性 4 上 的 索引 (index) 是 一 种 数据 结构 ， 它 能 提高 在 属性 4 上 查找 具有 某 个 特定 
值 的 元 组 的 效率 。 可 以 把 索引 认为 是 一 棵 二 又 查找 树 中 的 键 一 值 对 ， 在 键 一 值 对 中 ， 一 个 键 a 
(属性 4 可 能 含有 的 一 个 值 ) 与 一 个 “ 值 ”相关 联 ， 而 该 值 是 属性 4 上 分 量具 有 值 4 的 元 组 集 的 
存放 位 置 。 这 样 的 索引 有 助 于 对 包含 属性 4 的 值 与 常量 作 比 较 的 查询 ， 比 如 包含 4=3 或 4<3 
的 查询 。 注 意 ， 索 引 的 键 可 以 来 自 关系 的 任何 一 个 属性 或 者 属性 组 ， 而 不 必 是 建立 索引 的 关 
系 的 键 属性 。 为 了 区 别 索 引 的 键 与 关系 的 键 ， 将 索引 的 属性 称 为 索引 键 (index key)。 
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大 型 关系 的 索引 的 实现 技术 是 DBMS 实 现 中 最 重要 的 核心 问题 。 典 型 的 DBMS 中 用 到 的 最 
重要 的 数据 结构 是 “B 一 树 ”"， 它 是 一 种 广义 上 的 平衡 二 又 树 。 当 讨论 DBMS 的 实现 时 必然 涉 
及 B 一 树 细节 ， 但 是 目前 ， 只 需 把 索引 想象 成 二 又 查找 树 就 足够 了 。 


8.3.1 建立 索引 的 动机 

当 关系 变 得 很 大 时 ， 通 过 扫描 关系 中 所 有 的 元 组 来 找 出 那些 (可 能 数量 很 少 ) 匹配 给 定 
查询 条 件 的 元 组 的 代价 太 高 。 例 如 ， 考 虑 例 6.1 的 查询 : 

SELECT * 


FROM Movies 
WHERE studioName = ’Disney’ AND year = 1990; 


关系 中 可 能 存在 10 000 个 电影 元 组 ， 但 只 有 大 约 200 部 是 1990 年 制作 的 。 

实现 这 个 查询 的 最 原始 的 方式 是 获取 所 有 10 000 个 元 组 ， 并 用 WHERE 子 名 中 的 条 件 逐 个 测 
试 每 个 元 组 。 但 如 果 存 在 某 种 方法 ， 它 仅 取 出 年 份 值 为 1990 的 200 个 元 组 并 逐个 测试 电影 公司 
是 否 是 Disney， 那 么 查询 效率 就 会 大 大 提高 。 更 有 效 的 方法 是 能 直接 取得 满足 两 个 条 件 的 10 
个 左右 的 元 组 ， 其 电影 公司 是 Disney， 而 制作 年 份 是 1990 年 。 有 关 它 的 具体 细节 请 参阅 8.3.2 
节 中 的 “多 属性 索引 ”。 

在 包含 连接 的 查询 中 ， 索 引 同 样 非常 有 用 。 下 面 的 例子 将 说 明 这 一 点 。 


例 8.9 回顾 例 6.12 中 的 查询 

SELECT name 

FROM Movies, MovieExec 

WHERE title = ’Star Wars’ AND producerC# = cert#; 


该 查询 要 求 找 出 电影 Star Wars 的 制 片 人 名 字 。 如 果 在 关系 Movies 的 tit1e 属 性 上 建 有 索引 ， 那 
么 就 可 以 用 索引 来 获取 tit1e 分 量 值 为 Star Wars 的 元 组 。 从 这 个 元 组 中 ， 可 以 析 取 
producerC# 值 从 而 得 到 制 片 人 的 证 书号 。 

现在 假设 关系 MovieExec 的 cert# 属 性 上 也 建 有 索引 。 那 么 为 了 找到 Star Wars 的 制 片 人 ， 
可 以 先 通过 索引 中 键 值 等 于 producerC# 值 的 项 找到 MovieExec 中 相应 的 元 组 ， 然 后 从 这 个 元 组 
中 取得 制 片 人 的 名 字 。 注 意 ， 通过 这 两 个 索引 ， 仪 需 察看 分 别 来 自 两 个 关系 中 的 两 个 元 组 ， 
而 它们 是 回答 该 查询 所 真正 需要 的 。 如 果 设 有 索引 ， 就 需要 遍历 两 个 关系 中 的 每 一 个 元 组 。 口 


8.3.2 索引 的 声明 

尽管 索引 的 创建 还 不 是 SQL 标准 (包括 SQL-99) 的 一 部 分 ， 但 是 大 部 分 商用 系统 都 为 数 
据 库 设计 者 提供 一 些 方法 ， 用 于 在 关系 的 某 个 属性 上 创建 索引 。 下 面 的 例子 是 典型 的 索引 创 
建 语句 。 假 设 要 在 关系 Movies 的 year 属 性 上 创建 一 个 索引 ， 则 创建 语句 为 : 

CREATE INDEX YearIndex ON Movies(year); | 
该 语句 的 结果 是 在 关系 Movies 的 属性 year 上 创建 一 个 名 为 YearIndex 的 索引 。 这 样 ，SQL 查 
询 处 理 器 在 处 理 指 定年 份 的 查询 时 ， 仅 仅 对 年 份 为 指定 值 的 Movies 的 元 组 进行 测试 ， 从 而 使 
获得 查询 结果 的 时 间 大 大 缩短 。 

通常 ，DBMS 人 允许 在 多 个 属性 上 创建 一 个 单独 索引 。 这 种 类 型 的 索引 使 用 几 个 属性 的 值 
进行 查找 ， 并 能 有 效 地 找到 匹配 给 定 属性 值 的 元 组 。 

例 8.10 ”由 于 tit1e 和 year 组 成 了 关系 Movies 的 键 ， 所 以 通常 这 两 个 属性 的 值 要 么 同时 指 
定 ， 要 么 一 个 也 不 指定 。 下 面 是 在 这 两 个 属性 上 建立 一 个 索引 的 声明 : 

CREATE INDEX KeyIndex ON Movies(title, year); 

因为 (title,year) 是 键 ， 所 以 当 给 出 某 个 tit1e 和 year 时 ， 只 有 一 个 符合 需要 的 元 组 
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返回 ， 而 且 那 就 是 所 期 望 的 元 组 。 相 反 ， 如 果 查 询 同 时 指定 了 tit1e 和 year 值 ， 但 是 只 有 一 个 
YearIndex 索 引 可 用 ， 那 么 最 好 的 做 法 是 ， 系 统 先 检索 出 所 有 值 为 该 指定 年 份 的 元 组 ， 然 后 逐 
个 检查 每 个 元 组 的 tit1e 是 否 为 给 定 值 。 

通常 ， 如 果 多 属性 索引 中 的 键 是 某 些 属 性 按 特定 顺序 的 组 合 ， 那 么 可 以 使 用 这 个 索引 找 出 
匹配 属性 列表 中 前 面 的 任何 属性 子 集 值 的 全 部 元 组 。 这 样 ， 多 属性 索引 的 设计 即 是 属性 列表 顺 
序 的 选择 。 例 如 ， 若 查找 时 对 电影 名 的 查询 比 对 年 份 的 查询 要 多 ， 就 使 用 上 面 定义 的 多 属性 索 
引 。 若 对 电影 年 份 的 查询 比 对 电影 名 的 查询 多 ， 那 么 最 好 创建 一 个 (year ,title) 上 的 索引 。 口 

如 果 想 删除 索引 ， 则 使 用 下 面 的 语句 指定 其 索引 名 即 可 。 


DROP INDEX YearIndex ; 


8.3.3 习题 
习题 8.3.1 对 下 面 的 电影 样本 的 数据 库 : 


Movies(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 

MovieExec(name, address, cert#, netWorth) 

Studio(name, address, presC#) 


为 下 面 的 属性 或 者 属性 组 声明 索引 。 
a) studioName 

b) MovieExec 的 属性 address 

c) genre 和 1ength 


8.4 索引 的 选择 


选择 创建 哪个 索引 要 求 数据 库 设 计 者 做 一 个 开销 上 的 分 析 。 实 际 上 ， 索 引 的 选择 是 衡量 
数据 库 设计 成 败 的 一 个 重要 因素 。 设 计 索 引 时 要 考虑 以 下 两 个 重要 因素 : 

“如 果 属 性 上 存在 索引 ， 则 为 该 属性 指定 一 个 值 或 者 取 值 范围 能 极 大 地 提高 查询 的 执行 效 

率 。 同 样 ， 如 果 查 询 涉 及 该 属性 上 的 连接 操作 ， 也 会 带 来 性 能 上 的 改善 。 

。 另 一 方面 ， 为 关系 上 的 某 个 属性 或 者 某 个 属性 集 建立 的 索引 会 使 得 对 关系 的 插入 、 删 除 

和 修改 变 得 更 复杂 和 更 费时 。 


8.4.1 简单 代价 模型 

为 了 理解 怎样 为 数据 库 选 择 索 引 ， 首 先 需 要 知道 在 执行 查询 时 时 间 消 耗 在 哪儿 。 关 系 是 
怎样 存储 的 细节 将 在 DBMS 的 实现 中 详细 讨论 ， 但 是 现在 ， 暂 时 假设 关系 的 元 组 被 正常 地 分 
配 在 磁盘 的 多 个 页 面 上 9 。 每 个 磁盘 页 通常 至 少 包含 几 千 字 节 ， 可 以 存储 多 个 元 组 。 

为 了 检查 哪怕 只 是 一 个 元 组 ， 需 要 将 包含 它 的 整个 磁盘 页 调 人 到 主 存 中 。 另 一 方面 ， 检 
查 一 个 磁盘 页 上 所 有 元 组 所 花费 的 时 间 通 常 和 检查 一 个 元 组 所 花费 的 时 间 几 乎 没有 什么 差别 。 
所 以 ， 如 果 需 要 的 磁盘 页 已 经 在 主 存 中 了 ， 则 将 可 能 节省 大 量 的 时 间 ， 但 是 为 了 简单 起 见 ， 
假定 不 会 出 现 这 种 情况 ， 即 每 一 个 磁盘 页 都 必须 从 硬盘 上 读 入 。 


8.4.2 一 些 有 用 的 索引 
通常 ， 关 系 上 最 有 用 的 索引 是 其 键 上 的 索引 。 原 因 有 两 个 : 


@ 在 有 关 和 数据库 的 讨论 中 ， 磁 盘 页 就 是 通常 所 说 的 磁 副 块 ， 但 是 如 果 你 对 采用 分 页 存储 机 制 的 操作 系统 比较 
熟悉 ， 则 可 以 很 自然 地 把 整个 磁盘 看 成 是 很 多 页 的 集合 。 
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1. 在 查询 中 为 主键 指定 值 是 比较 普遍 的 。 因 此 ， 键 上 的 索引 通常 会 被 频繁 地 使 用 。 

2. 因为 键 值 是 唯一 的 ， 故 与 给 定 键 值 匹配 的 元 组 最 多 只 有 一 个 ， 因 此 索引 返回 的 要 么 是 
这 个 元 组 的 位 置 ， 要 么 什么 也 不 返回 。 也 就 是 说 ， 为 了 取得 这 个 元 组 ， 最 多 只 有 一 个 磁盘 页 
需要 被 读 入 到 主 存 (尽管 有 时 为 了 使 用 索引 本 身 需 要 读 和 存储 索引 的 其 他 磁盘 页 ) 。 

从 下 面 的 例子 可 以 看 到 键 索引 带 来 的 性 能 上 的 改进 ， 甚 至 在 包含 连接 操作 的 查询 情况 下 ， 
这 种 改进 也 非常 明显 。 

例 8.11 ”回顾 图 6-3， 在 计算 连接 时 使 用 了 穷 举 的 方式 查找 关系 Moivies 和 MovieExec 中 的 
配对 元 组 。 这 种 实现 方式 需要 读 取 每 个 含有 Movies 元 组 和 MovieExec 元 组 的 磁盘 页 至 少 各 一 
次 。 事 实 上 ， 由 于 这 些 磁盘 页 可 能 会 太 多 而 不 能 同时 共 驻 主 存 ， 这 就 需要 多 次 地 从 磁盘 上 进 
行 磁盘 页 读 取 。 而 通过 使 用 合适 的 索引 ， 整 个 查询 仅 需 2 次 磁盘 页 读 取 即 可 完成 。 

在 关系 Movies 中 ， 键 tit1e 和 year 上 的 索引 有 助 于 快速 地 找 出 Star Wars 对 应 的 Movies 元 
组 。 此 时 只 有 一 个 磁盘 页 ( 即 包含 所 需 元 组 的 页 ) 需要 从 磁盘 上 读 和 人 。 然 后 ， 从 这 个 元 组 中 
找到 制 片 人 证 书号 后 ， 再 利用 关系 MovieExec 的 键 cert# 上 的 索引 即 可 快速 找到 MovieExec 关 
系 中 包含 5tar Wars 制 片 人 的 那个 元 组 。 同 样 ， 尽 管 为 了 使 用 cert# 上 的 索引 可 能 需要 读 和 人 少 
量 的 其 他 页 ， 但 这 里 只 有 一 个 包含 MovieExec 元 组 的 磁盘 页 需要 读 入 主 存 。 

当 索 引 不 是 建立 在 键 上 时 ， 则 在 执行 查询 时 ， 它 可 能 会 也 可 能 不 会 加 速 元 组 的 检索 速度 。 
存在 两 种 情况 ， 即 使 不 是 建立 在 键 属性 上 的 索引 也 仍然 有 效 。 

1. 该 属性 几乎 可 以 看 成 是 一 个 键 ， 即 相对 来 说 基本 上 没有 多 少 元 组 在 该 属性 上 具有 给 定 值 。 
所 以 ， 即 使 每 个 具有 给 定 值 的 元 组 分 别 位 于 不 同 的 磁盘 页 上 ， 也 不 需要 检索 大 量 的 磁盘 页 。 

2. 元 组 在 该 属性 上 是 “ 诊 集 ”的 ， 即 通过 将 具有 该 属性 上 公共 值 的 元 组 分 组 到 尽 可 能 少 
的 磁盘 页 里 来 将 一 个 关系 聚合 到 一 个 属性 上 。 在 这 种 情况 下 ， 即 使 符合 要 求 的 元 组 可 能 有 很 
多 ,但 是 却 不 必 检 索 与 符合 要 求 的 元 组 数目 相同 的 磁盘 页 。 

例 8.12 作为 第 一 种 情况 的 一 个 例子 ， 假 设 关 系 Movies 的 属性 tit1e 上 建 有 索引 ， 而 不 是 在 
属性 对 tit1e 和 year 上 。 因 为 tit1e 本 身 不 是 键 ， 所 以 ， 可 能 存在 几 个 元 组 它们 在 tit1e 分 量 上 
的 值 与 索引 键 t 让 1e 相 同 ， 例 如 均 为 King Hong。 现 在 对 比 一 下 例 8.11， 看 看 会 有 什么 不 同 。 当 
在 查询 中 为 tit1e 指 定 值 King Hong 时 ， 结 果 集 中 返回 三 个 元 组 〈 因 为 存在 三 部 电影 名 字 均 为 
King Hong， 分 别 产 于 1933 年 、1976 年 和 2005 年 ) 。 这 三 个 元 组 可 能 存在 于 三 个 不 同 的 磁盘 页 中 ， 
所 以 一 共 需 要 将 三 个 磁盘 页 读 入 主 存 。 这 一 步 将 会 消耗 大 约 3 倍 于 例 8.11 的 时 间 。 然 而 ， 由 于 关 
系 Movies 可 能 分 布 于 远 多 于 三 个 的 页 中 ， 所 以 使 用 该 索引 还 是 可 以 节省 相当 可 观 的 时 间 。 

接 下 来 第 二 步 ， 需 要 获得 上 面 找到 的 三 个 元 组 中 的 三 个 producerC# 的 值 ， 并 从 关系 
MovieExec 中 找 出 这 三 部 电影 的 制 片 人 。 可 以 利用 cert# 上 的 索引 找到 MovieExec 里 相应 的 三 
个 元 组 。 当 然 ， 这 三 个 元 组 也 可 能 位 于 三 个 不 同 的 页 ， 但 是 相对 于 将 整个 关系 MovieExec 读 入 
主 存 来 讲 ， 花 费 的 时 间 仍 然 要 少 得 多 。 口 

例 8.13 现在 假设 关系 Movies 上 的 唯一 索引 位 于 属性 year 上 ， 如 果 要 回答 如 下 的 查询 : 

SELECT * 

FROM Movies 

WHERE year = 1990; 

首先 ， 假 设 Movies 的 元 组 不 是 按 year 进 行 “聚合 ”的 ， 而 是 按照 tit1e 属 性 值 的 字典 序 排 
列 。 那 么 属性 year 上 的 索引 基本 上 不 会 带 来 任何 改进 。 如 果 每 页 存储 100 个 元 组 ， 则 有 相当 的 
几率 使 得 每 页 至 少 包 含 一 部 1990 年 制作 的 电影 。 这 样 ， 用 于 存储 关系 Movies 的 页 将 会 大 量 被 
读 入 到 主 存 。 
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然而 ， 如 果 WMovies 元 组 是 按 属性 year 值 进行 “聚合 ”的 ， 则 利用 其 上 的 索引 就 会 找到 只 
有 少量 的 页 包含 year 值 为 1990 的 元 组 。 在 这 种 情况 下 ， 索 引 会 带 来 极 大 的 好 处 。 反 过 来 ， 如 
果 在 tit1e 和 year 上 建立 索引 将 不 会 起 任何 作用 ， 并 且 无 论 是 在 哪个 属性 或 者 属性 集 上 进行 
“聚合 ”都 如 此 。 口 


8.4.3 计算 最 佳 索 引 

看 起 来 似乎 建立 的 索引 越 多 ， 对 于 一 个 给 定 的 查询 来 说 ， 索 引 就 越 有 可 能 起 到 作用 。 但 
是 ， 如 果 更 新 是 最 频繁 发 生 的 操作 ， 则 对 于 索引 的 创建 应 该 采取 非常 保守 的 策略 。 每 个 对 于 
关系 R 的 更 新 操作 都 会 迫使 同时 更 新 R 的 修改 过 的 属性 或 者 属性 集 上 的 任何 索引 。 这 样 ， 不 仅 
要 读 取 和 回 写 修改 的 R 的 页 ， 还 必须 花费 额外 代价 读 取 和 回 写 存储 索引 的 页 。 尽 管 有 时 更 新 操 
作 是 对 数据 库 采 取 的 主要 操作 ， 在 频繁 访问 的 属性 上 建立 索引 仍然 可 以 获得 性 能 改进 。 因 为 ， 
实际 上 ， 一 些 更 新 操作 本 身 也 包含 了 对 数据 库 的 查询 操作 (比如 ， 带 有 select-from-where 子 查 
询 的 插入 或 者 是 带 条 件 的 删除 等 操作 )。 所 以 ， 对 于 怎样 估计 查询 和 更 新 操作 的 相对 频 度 问题 
必须 采取 非常 谨慎 的 态度 。 

必须 牢记 ， 典 型 的 关系 被 存储 在 很 多 的 磁盘 块 (页 ) 上 ， 而 查询 或 者 更 新 操作 的 主要 代 
价 通 常 来 自 于 将 所 需 的 磁盘 页 读 入 到 主 存 的 数目 。 因 此 ， 能 够 快速 找到 所 需 元 组 而 不 需要 对 
整个 关系 进行 测试 的 索引 能 节省 大 量 的 时 间 。 然 而 ， 不 幸 的 是 ， 索 引 本 身 也 需要 (至 少 是 部 分 
地 ) 被 存储 在 磁盘 上 ， 访 问 索 引 和 修改 索引 本 身 也 需要 进行 磁盘 访问 。 实 际 上 ， 由 于 修改 操作 
需要 一 次 磁盘 访问 以 读 取 磁 盘 页 ， 而 另 一 次 磁盘 访问 用 于 将 修改 后 的 页 写 回 磁盘 ， 所 以 它 的 
开销 是 查询 中 访问 索引 或 数据 的 两 倍 。 

为 了 计算 索引 的 新 值 ， 需 要 假设 那些 查询 和 更 新 对 于 数据 库 来 说 是 最 频繁 发 生 的 操作 。 
有 时 ， 基 于 未 来 总 是 会 与 过 去 相似 的 假定 ， 可 以 从 查询 历史 中 获得 一 些 有 用 的 信息 。 在 另外 
一 种 情况 下 ， 可 能 已 知 数据 库 会 支持 特殊 的 应 用 ， 于 是 可 以 查看 过 去 这 些 应 用 执行 的 所 有 
SQL 查询 和 修改 的 代码 。 任 一 种 情况 下 ， 都 可 以 列 出 我 们 期 望 的 最 可 能 出 现 的 查询 和 更 新 操 
作 的 形式 。 在 这 些 形 式 中 可 以 将 原 查 询 中 的 常量 换 成 变量 ， 但 是 必须 保证 它们 看 起 来 像 真实 
的 SQL 语句 。 下 面 的 例子 演示 了 需要 做 的 处 理 和 计算 。 

例 8.14 考察 关系 

StarsIn(movieTitle, movieYear, starName) 

假设 会 在 该 关系 上 执行 三 种 数据 操作 

Q1: 查找 某 个 给 定 的 演员 演 过 的 电影 的 片 名 和 年 份 ， 使 用 下 面 的 查询 形式 : 

SELECT movieTitle, movieYear 


FROM StarsIn 
WHERE starName = 5; 


其 中 s 是 一 个 常量 。 
Q;: 查找 出 现在 给 定 电影 里 的 演员 名 字 。 使 用 下 面 的 查询 形式 : 
SELECT starName 


FROM StarsIn 
WHERE movieTitle = +t AND movieYear = y; 


其 中 [和 7y 是 常量 。 

1: 插入 新 的 元 组 到 关系 StarsIn。 使 用 下 面 的 插入 语句 : 
INSERT INTO StarsIn VALUES(t, y, s); 

其 中 i, y 和 s 是 常量 。 


212 种 二 部 分 关系 数据 亩 程序 设 矿 





对 数据 作 如 下 的 假定 ; 

1. 关 系 StarsIn 存 储 在 10 个 磁盘 页 中 ， 如 果 要 检查 整个 关系 ， 则 代价 为 10。 

2. 平均 每 部 电影 包含 3 个 影星 ， 每 个 影星 出 现在 3 部 电影 中 。 

3. 因为 对 于 给 定 的 某 个 影星 或 某 部 电影 ， 其 相关 元 组 可 能 随机 分 布 在 10 个 磁盘 页 中 ， 所 
以 即使 在 starName 或 movieTit1e 和 movieYear 的 组 合 上 建 有 索引 ， 平 均 也 需要 3 次 磁盘 访问 才 
能 找 出 某 个 影星 或 某 部 电影 的 3 个 元 组 。 如 果 影 星 或 影片 上 没有 建 索 引 ， 则 分 别 需要 10 次 磁盘 
访问 操作 。 

4. 对 于 一 个 给 定 的 加 索引 的 属性 (组 ) 值 ， 为 了 利用 该 属性 上 的 索引 定位 对 应 元 组 ， 每 
次 需要 一 次 磁盘 访问 将 索引 所 在 的 页 读 入 主 存 。 如 果 索 引 页 需要 更 新 (比如 在 插入 的 情况 下 )， 
那么 还 需要 一 次 磁盘 访问 将 改变 后 的 索引 写 回 到 磁盘 。 

5. 同 样 地 ， 在 进行 插入 操作 时 ， 需 要 一 次 磁盘 访问 读 取 用 于 容纳 新 元 组 的 磁盘 页 ， 然 后 再 
花费 一 次 磁盘 访问 用 于 回 写 这 个 磁盘 页 。 这 里 假定 : 即使 在 没有 索引 的 情况 下 ， 也 不 需要 扫 
描 整 个 关系 ， 就 能 找到 用 于 添加 新 元 组 的 磁盘 页 。 

图 8-3 给 出 了 三 种 操作 的 代价 ;Ci (给 定 影星 信息 的 查询 )、0Q，( 给 定 电影 信 息 的 查询 ) 
和 1 (插入 操作 )。 如 果 不 使 用 索引 ， 则 对 于 Q1 或 ;必须 扫描 整个 关系 (代价 为 10) ， 而 对 于 插 
入 仅 需 要 找到 一 个 有 空 闪 空间 的 磁盘 页 并 将 新 的 元 组 (代价 为 2， 因 为 假定 不 需要 索引 也 可 以 
找到 ) 写 入 即 可 。 详 情 见 图 8-3 标 号 为 “无 索引 ”的 列 。 


No Index Star Index Movie Index Both Indexes 





2 十 8pi + 8p2 4 二 6ps 4 二 6p1 6 — 2p1 — 2p2 


图 8-3 三 种 操作 在 使 用 不 同 索 引 情 况 下 的 操作 代价 


如 果 仅 仅 对 影星 建立 索引 ， 那 么 0; 仍 然 需要 扫描 整个 关系 (代价 为 10)。 但 是 ，Q1 能 通过 
访问 一 个 索引 页 快速 找到 给 定 影星 对 应 的 3 个 元 组 ， 然 后 再 通过 3 次 磁盘 访问 将 包含 这 3 个 元 组 
的 磁盘 页 读 入 主 存 。 插 入 操作 1 要求 对 索引 页 和 数据 页 均 进 行 一 次 读 入 操作 和 回 写 操 作 ， 所 以 
总 共 是 4 次 磁盘 访问 操作 。 

仅 对 电影 建立 索引 的 情况 和 仅 对 影星 建立 索引 的 情况 类 似 。 最 后 ， 如 果 对 影星 和 电影 都 建 
立 索 引 ， 那 么 回答 01 和 Qs 都 只 需 4 次 磁盘 访问 操作 。 但 是 插入 1 却 需要 对 两 个 索引 页 和 一 个 数据 
页 块 进行 读 写 操作 ， 总 共 需 要 6 次 磁盘 访问 操作 。 上 面 的 分 析 结 果 显 示 在 图 8-3 的 最 后 一 列 。 

图 8-3 的 最 后 一 行 给 出 了 操作 的 平均 代价 。 这 里 假定 执行 2 的 时 间 的 比例 为 mm， 执 行 2: 的 
时 间 的 比例 为 zz>， 因 此 执行 的 时 间 的 比例 为 1 一 zi 一 Pa。 

随 着 p! 和 p; 的 取 值 不 同 , 给 出 的 四 种 方案 对 于 三 种 操作 都 可 能 产生 最 低 的 平均 代价 。 比 如 ， 
如 果 p1= ps= 0.1， 那 么 表达 式 2+8pi+ 8p2 最 小 ， 所 以 这 时 更 倾向 于 不 建立 索引 。 也 就 是 如 果 插 
入 操作 是 主要 的 ， 只 有 少量 的 查询 ， 那 么 就 不 需要 索引 。 但 是 另 一 方面 ， 如 果 p1 = p= 0.4， 
那么 表达 式 6 一 2p1 一 2p2 将 会 获得 最 小 值 ， 这 时 可 以 选择 在 starName 和 (movieTitle， 
movieYear) 组 合 上 均 建立 索引 。 直 觉 上 ， 如 果 需 要 进行 大 量 的 查询 ， 并 且 指 定 电影 信 息 的 查 


日 有 一 个 微妙 之 处 ， 在 这 里 可 以 忽略 它 。 在 很 多 种 情况 下 ， 可 以 将 一 个 关系 存储 在 磁盘 的 一 些 连续 页 面 或 块 
上 。 在 这 种 情形 下 ， 检 索 整 个 关系 的 次 数 会 远 小 于 采取 随机 页 面 选择 策略 时 的 检索 次 数 。 
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询 数量 和 指定 影星 信息 的 查询 数量 大 致 相同 时 ， 则 两 个 索引 都 需要 。 

如 果 Pi = 0.5，p2= 0.1， 那 么 仅 在 影星 上 建立 索引 获得 了 最 好 的 平均 性 能 ， 因 为 4+6p; 取 到 
最 小 值 。 同 样 地 ，Pi = 0.1，p;= 0.5 要 求 仅 在 电影 上 创建 索引 。 从 直观 上 来 讲 ， 如 果菜 类 查询 
非常 频繁 ， 那 么 就 仅仅 创建 有 助 于 该 查询 的 索引 。 口 


8.4.4 索引 的 自动 选择 

“ 调 优 ”一 个 数据 库 不 仅仅 包括 索引 的 选择 ， 还 包含 很 多 其 他 有 关 参 数 的 选择 。 我 们 至 今 
还 没有 县 体 讨论 数据 库 的 物理 实现 ， 只 是 列举 了 一 些 有 关 多 进程 主 存 分 配 以 及 数据 库 备份 和 
设置 检查 点 (为 了 能 够 从 故障 中 恢复 ) 的 例子 。 数 据 库 的 设计 者 已 经 设计 出 很 多 工具 来 负责 
上 述 事宜 和 数据 库 的 自动 调整 ， 它 们 至 少 能 为 开发 者 提供 比较 好 的 建议 。 

本 章 的 参考 书目 中 将 会 提 到 一 些 有 关 这 方面 的 项 目 。 下 面 则 是 一 些 有 关 索 引 选 择 的 建议 。 

1. 第 一 步 是 确定 查询 工作 集 。 因 为 DBMS 通 常会 记录 对 它 执行 的 所 有 操作 ， 所 以 可 以 用 
手工 的 方式 检查 log 日 志 ， 并 找 出 其 中 对 数据 库 有 代表 性 的 查询 和 更 新 操作 集 。 另 一 种 方法 是 ， 
可 以 从 使 用 数据 库 的 应 用 程序 得 知 典型 的 查询 将 是 何 种 形式 。 

2. 可 能 会 要 求 设计 者 指定 一 些 约束 条 件 。 比 如 ， 必 须 或 者 不 能 建立 索引 。 

3. “ 调 优 顾问 ”会 生成 一 系列 候选 索引 (Candidate index)， 并 对 它们 进行 评估 。 典 型 的 
查询 被 提交 给 DBMS 的 查询 优化 器 。 查 询 优化 器 会 在 某 候 选 索引 集 存 在 的 假设 下 估算 查询 的 
执行 时 间 ， 从 而 据 此 得 出 最 佳 选 择 。 

4. 最 后 具有 最 小 代价 的 索引 集会 被 提交 给 设计 者 ， 或 者 它们 自动 创建 。 

在 上 述 第 三 步 中 ， 当 考虑 可 能 的 索引 时 会 出 现 一 个 问题 ， 即 以 前 选择 的 索引 将 会 在 多 大 
程度 上 影响 其 他 索引 带 来 的 收益 ( 指 查询 集 上 平均 执行 时 间 的 改进 ) 。“ 贪 心 策略 ”在 索引 的 
选择 上 已 被 证 明 是 有 效 的 。 

a) 初始 情况 ， 当 没有 选择 索引 时 ， 逐 一 评估 各 候选 索引 带 来 的 收益 。 如 果 至 少 有 一 个 索 
引 可 以 带 来 正面 的 收益 (比如 ， 它 能 够 减少 查询 的 平均 执行 时 间 ) ， 那 么 选择 该 索引 。 

b) 然后 ， 在 假设 第 一 步 中 选 出 的 索引 是 真实 存在 的 情况 下 ， 评 估 剩 下 来 的 候选 索引 ， 同 
样 ， 选 出 能 够 带 来 最 大 正面 收益 的 索引 。 

c) 总 之 ， 在 假定 选择 出 来 的 索引 是 真实 存在 的 情况 下 ， 重 复 上 面 的 评估 。 选 出 能 够 带 来 
最 大 收益 的 索引 ， 直 到 没有 索引 能 够 带 来 正面 收益 为 止 。 


8.4.5 习题 
习题 8.4.1 ”现在 假设 在 例 8.14 中 讨论 的 关系 StarsIn 占 100 页 而 不 是 原来 的 10 页 ， 其 他 的 假设 保持 不 变 。 
请 用 关于 pl 和 p2 的 公式 来 描述 查询 Q1、Q2 以 及 插入 /的 代价 ， 分 别 考 虑 没有 索引 、Star 上 建 有 索引 、 
Movie 上 建 有 索引 和 Star 与 Movie 上 均 建 有 索引 的 四 种 情况 。 
! 习 题 8.4.2 本 题 中 ， 考 虑 关系 
Ships (name, class, launched) 
上 的 索引 ， 这 个 关系 来 自 于 以 前 关于 Battleships 的 习题 。 假 定 : 
i. name 是 键 。 
ii. 存储 关系 Ships 的 磁盘 页 超过 50。 
iii. 关系 按照 类 别 (c1ass ) 进 行 聚合 ， 这 样 只 需 一 次 磁盘 访问 操作 就 可 以 找到 给 定 类 别 的 船 。 
iv. 平均 来 说 ， 每 个 类 别 包含 5 艘 船 ， 每 年 有 25 艘 船 下 水 。 
v. 在 该 关系 上 如 下 形式 的 查询 
SELECT * FROM Ships WHERE name = n 
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的 概率 为 p1。 
vi. 在 该 关系 上 如 下 形式 的 查询 

SELECT * FROM Ships WHERE class = cC 

的 概率 为 p2。 
vii. 在 该 关系 上 如 下 形式 的 查询 

SELECT * FROM Ships WHERE launched = y 

的 概率 为 p3。 
viii. 插 入 一 个 新 元 组 的 概率 为 1 一 p1 一 p2 一 p3。 

你 可 以 类 似 例 8.14 那 样 假设 关于 访问 索引 和 为 插入 查找 空 块 的 代价 。 
分 别 考虑 在 name、c1ass 和 1aunched 上 建立 索引 。 对 每 一 种 索引 组 合 ， 估 算 操 作 的 平均 代价 。 用 关 
于 pl1、p2 和 p3 的 函数 说 明 最 佳 的 索引 方式 是 什么 ? 


8.5 物化 视图 


视图 描述 了 如 何 通 过 在 基 表 上 执行 查询 来 构造 一 个 新 的 关系 。 到 目前 为 止 ， 仅仅 认 为 视 
图 是 关系 的 一 个 逻辑 上 的 描述 ， 然 而 ， 如 果 一 个 视图 被 经 常 使 用 ， 则 可 能 会 想到 将 它 物化 
(materialize) ， 即 在 任何 时 间 都 保存 它 的 值 。 因 为 当 基 本 表 发 生变 化 时 ， 每 次 必须 重新 计算 部 
分 物化 视图 ， 所 以 就 像 维护 索引 一 样 ， 维 护 物化 视图 也 要 一 定 的 代价 。 


8.5.1 物化 视图 的 维护 
原则 上 讲 ， 当 基本 表 发 生 任何 变化 时 ， 每 次 都 要 重新 计算 物化 视图 。 但 是 对 于 简单 的 视 
图 来 说 ， 在 维护 物化 视图 的 过 程 中 ， 可 以 少 做 一 些 工 作 。 下 面 ， 将 举 一 个 连接 视图 的 例子 ， 
从 中 可 以 看 到 有 大 量 的 机 会 简化 要 做 的 工作 。 
例 8.15 ”假如 需要 频繁 地 查找 出 一 部 电影 的 制 片 人 ， 则 会 发 现 使 用 如 下 的 物化 视图 是 方 
便 的 : 
CREATE MATERIALIZED VIEW MovieProd AS 
SELECT title, year, name 
FROM Movies, MovieExec 
WHERE producerC# = cert#; 
首先 ，BDMS 不 需 考 虑 在 Movies 或 者 MovieExec 中 不 涉及 物化 视图 定义 的 查询 中 的 任 一 属 
性 的 MoviepProd 更 新 上 的 影响 。 当 然 对 于 既 不 是 Movies 也 不 是 MovieExec 的 任何 其 他 关系 的 
改变 也 会 被 DBMS 忽 略 。 然 而 ， 存 在 一 些 其 他 的 简化 措施 ， 能 够 使 得 对 于 Movies 或 者 
MovieExec 的 修改 比重 新 执行 定义 物化 视图 的 查询 更 为 简单 有 效 。 
1. 假设 需要 在 Movies 中 插入 一 部 新 的 电影 ， 其 中 片 名 title= “Ki11 8i11 ， 制 作 年 份 
year=2003， 制 片 人 的 证 书号 producerC#=23456。 则 只 需要 在 MovieExec 中 查找 cert#=23456 
的 元 组 。 因 为 cert# 是 关系 MovieExec 的 键 ， 所 以 下 面 的 查询 最 多 只 会 返回 一 条 结果 : 


SELECT name FROM MovieExec 
WHERE cert# = 23456; 


假设 查询 返回 的 结果 为 name= “Quentin Tarantino ， 则 DBMS 可 以 通过 下 面 的 语句 将 适 
当 的 元 组 插 人 NMovieProd 

INSERT INT0 MovieProd 

VALUES(’Kill Bill’, 2003, ’Quentin Tarantino’); 


注意 , 因为 MovieProd 被 物化 , 于 是 它 像 基本 表 一 样 被 存储 下 来 ,所 以 上 面 的 操作 是 有 意义 的 ， 
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即 系统 不 需要 替换 触发 器 或 任何 其 他 机 制 重新 解释 执行 该 物化 视图 的 定义 。 
2. 假设 要 从 关系 Movies 里 面 删 除 一 部 电影 ， 电 影 名 为 “Dumb&Dumber” ， 制 作 年 份 为 1994 


年 。 则 DBMS 只 需要 使 用 如 下 语句 从 MovieProd 中 删除 一 部 电影 : 
DELETE FROM MovieProd 
WHERE title = Dumb & Dumber’ AND year = 1994; 


3. 假设 需要 将 一 个 元 组 插入 MovieExec， 其 中 cert# 等 于 34567，name 值 为 “Max 
Bialystock 。 则 DBMS 可 能 需要 在 视图 MovieProd 中 插入 一 些 原 来 不 在 其 中 的 电影 ， 因 为 插 
入 电影 的 制 片 人 从 前 没有 出 现 过 。DBMS 会 执行 下 面 的 操作 : 

INSERT INTO MovieProd 

SELECT title, year, ’Max Bialystock’ 
FROM Movies 
WHERE producerC# = 34567; 


4. 现在 假设 要 从 MovieExec 中 删除 cert#=45678 的 元 组 。 则 DBMS 也 要 将 视图 MovieProd 中 
producerC# 值 为 45678 的 元 组 删 去 ， 因 为 MovieExec 中 已 经 不 存在 和 其 基本 元 组 Movies 匹 配 的 
元 组 了 。 下 面 的 操作 将 会 被 执行 : 

DELETE FROM MovieProd 

WHERE (title, year) IN 


(SELECT title, year FROM Movies 
WHERE producerC# = 45678); 


注意 ， 仅 仅 找 出 MovieExec 中 与 45678 对 应 的 name 值 然后 从 MovieProd 中 删除 制 片 人 名 字 
与 它 相等 的 所 有 电影 是 不 够 的 。 因 为 属性 name 并 不 是 MovieExec 的 键 ， 可 能 存在 两 个 制 片 人 有 具 
有 相同 姓名 的 情况 。 

当 对 关系 Movies 的 更 新 涉及 属性 titile 和 year 时 该 怎样 考虑 ， 以 及 当 对 于 MovieExec 的 
更 新 涉及 属性 cert# 时 又 该 如 何 操作 ， 这 些 将 留 作 习题 。 口 

从 例 8.15 中 得 到 的 最 重要 的 信息 是 ; 对 于 物化 视图 的 更 改 都 是 增 量 式 的 (incremental)。 
即 ， 不 需要 从 定义 重新 计算 和 构造 整个 视图 。 更 进一步 地 说 ， 只 需要 通过 很 少量 的 对 基本 表 
的 查询 加 上 一 些 对 物化 视图 的 修改 ， 就 可 以 使 得 对 于 基本 表 的 插入 、 删 除 以 及 更 新 操作 能 够 
在 一 个 连接 视图 (比如 MovieProd) 上 完成 。 这 些 修改 不 会 影响 视图 的 所 有 元 组 ， 而 仅仅 只 是 
那些 至 少 有 一 个 属性 值 为 特殊 常量 的 元 组 。 

人 们 不 可 能 为 每 个 能 构造 的 物化 视图 找到 类 似 例 8.15 那 样 的 规则 ， 有 些 视图 太 过 复杂 。 但 
是 ， 有 很 多 常见 类 型 的 物化 视图 确实 允许 增 量 式 维护 。 在 后 面 的 习题 里 将 探讨 另 一 种 常见 的 
物化 视图 一 聚集 视图 。 


8.5.2 物化 视图 的 定期 维护 

使 用 物化 视图 还 存在 一 种 其 他 的 情况 ， 在 这 种 情况 下 不 需要 考虑 基本 表 被 更 改 时 视图 一 
致 性 更 新 的 维护 代价 或 者 复杂 性 。10.6 节 介绍 OLAP 时 将 会 遇 到 这 种 情况 。 通 常数 据 库 有 两 种 
用 途 。 举 例 说 ， 一 个 百货 商店 会 利用 它 的 数据 库 来 记录 当前 的 库存 ， 这 个 数据 库 会 随 着 每 一 
笔 交 易 而 变化 。 同 样 地 ， 这 个 数据 库 也 可 能 被 决策 者 使 用 ， 用 于 研究 顾客 的 消费 习惯 ， 从 而 
决定 商店 什么 时 候 需 要 购 入 什么 样 的 货物 。 

对 于 决策 者 来 说 ， 他 们 所 提交 的 查询 如 果 能 用 对 物化 视图 的 查询 来 替代 ， 则 可 能 更 具 效 
率 ， 特 别 是 当 视图 包含 聚集 数据 时 (比如 ， 按 类 型 分 组 后 汇总 库存 里 不 同 尺寸 衬衫 的 数量 )。 
由 于 每 一 笔 交易 都 会 导致 对 数据 库 的 修改 ， 于 是 更 新 比 查询 要 频繁 得 多 。 所 以 对 于 更 新 占 主 
导 地 位 的 情况 ， 在 数据 上 建立 物化 视图 甚至 索引 带 来 的 开销 是 可 以 接受 的 。 
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通常 的 做 法 是 建立 物化 视图 ， 但 是 当 基 本 表 改 变 的 时 候 并 不 马上 对 视图 进行 更 新 ， 而 是 
定期 地 对 物化 视图 进行 重新 构造 (典型 的 做 法 是 在 晚上 重 构 一 次 )， 一 般 重 构 视图 会 选择 在 对 
数据 库 的 修改 或 者 查询 活动 比较 少 的 时 间 段 。 物 化 视图 仅仅 供 决策 者 使 用 ， 所 以 视图 的 数据 
可 能 会 比 最 新 的 数据 “过 期 ”24 小 时 (每 天 更 新 一 次 )。 但 是 ， 在 通常 情况 下 ， 顾 客 的 购物 习 
惯 改变 得 非常 不 明显 或 者 说 比较 惕 ， 因 此 ， 物 化 视图 里 的 数据 对 于 决策 者 来 讲 对 于 预计 哪 一 
种 货物 会 畅销 而 哪 一 种 货物 将 会 滞销 已 经 “足够 好 ”。 当 然 ， 要 是 布 拉 德 . 皮特 在 一 天 早晨 罕 
了 一 件 Hawaiian 牌 子 的 衬衫 ， 那 么 可 能 每 个 要 酷 的 家 伙 都 会 想 在 当天 傍晚 之 前 也 买 一 件 ， 但 
是 由 于 决策 者 一 直到 第 二 天 早晨 才 注 意 到 库存 里 面 没有 Hawaiian 品 牌 的 衬衫 了 ， 因 而 错过 了 
商机 ， 不 过 可 以 肯定 ， 发 生 这 种 危险 的 概率 很 低 。 


8.5.3 利用 物化 视图 重 写 查 询 

物化 视图 就 像 虚 拟 视 图 (8.12 节 ) 一 样 可 以 出 现在 一 个 查询 的 FROM 子 句 中 。 但 是 由 于 物 
化 视图 是 被 真正 地 存储 在 数据 库 中 ， 这 样 就 可 以 利用 物化 视图 将 查询 进行 重 写 ， 即 使 原 查 询 
里 面 该 视图 根本 没有 出 现 也 可 以 。 这 样 的 重 写 可 以 使 查询 具有 更 高 的 执行 效率 ， 因 为 查询 中 
较 复杂 的 部 分 ， 比 如 关系 的 连接 ， 可 能 在 物化 视图 构造 的 时 候 已 经 被 计算 出 来 了 。 

尽管 如 此 ， 也 必须 小 心地 检查 一 个 查询 是 否 能 够 利用 物化 视图 重 写 。 一 套 完整 的 能 够 利 
用 任何 类 型 物化 视图 的 规则 已 经 超出 了 本 书 的 范围 。 但 是 ， 这 里 将 给 出 一 条 相对 比较 简单 的 
规则 ， 它 适用 于 类 似 例 8.15 的 视图 。 

假设 有 一 个 物化 视图 VY， 它 由 下 面 的 查询 定义 : 

SELECT Ly 


FROM Ry 
WHERE Cy 


其 中 是 属性 列表 ，R, 是 关系 列表 ,而 Cv 是 条 件 表达 式 。 类 似 地 ， 假 设 有 如 下 形式 的 查询 0; 
SELECT Lo 
FROM Ro 
WHERE CQ 


在 下 面 的 条 件 满足 时 ， 可 以 用 视图 V 来 替换 查询 0 中 的 部 分 内 容 : 
1. 在 列表 Ry 中 出 现 的 关系 均 在 Ro 中 出 现 。 
2. 在 某 种 条 件 C 下 ，Co 与 Cv AND C 等 价 。 作 为 一 种 特殊 情况 ， 当 Co 与 Cy 等 价 时 ,“AND C” 
是 不 必要 的 。 
3. 如 果 C 是 必要 的 ， 则 在 条 件 C 中 出 现 的 属于 Ry 中 关系 的 属性 也 是 Ly 的 属性 。 
4. Lo 中 属性 如 果 是 来 自 于 Ry 中 的 关系 ， 则 它们 也 出 现在 Lv 中 。 
如 果 上 面 四 个 条 件 都 满足 ， 则 可 以 按 下 面 的 步 又 用 VY 重 写 查 询 CO: 
a) 用 V 以 及 在 Ro 中 出 现 但 是 没有 在 Ry 中 出 现 的 关系 替换 列表 Ro。 
b) 用 C 替 换 Co。 如 果 C 不 是 必要 的 (比如 当 Cy = Co 时 ) ， 则 可 以 去 掉 查询 中 的 WHERE 子 句 。 
例 8.16 ”假如 有 例 8.15 中 的 物化 视图 Movieprod。 该 视图 由 下 面 的 查询 V 定 义 : 


SELECT title, year, name 
FROM Movies, MovieExec 
WHERE producerC# = cert#; 


同时 假设 需要 回答 查询 2，2@ 要 求 给 出 所 有 出 现在 Max Bialystock 制 作 的 电影 里 面 的 影星 的 姓 
名 。 对 于 上 述 的 查询 ， 需 要 以 下 的 几 个 关系 : 


Movies(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 
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MovieExec(name, address, cert#, netWorth) 
查询 0 可 以 被 写成 : 

SELECT starName 

FROM StarsIn, Movies, MovieExec 


WHERE movieTitle = title AND movieYear = year AND 
producerC# = cert# AND name = ’Max Bialystock’; 


现在 对 比 视图 V 的 定义 和 查询 0O， 发 现 它们 满足 上 面 列举 出 的 所 有 替换 条 件 。 

1. 在 V 的 FROM 子 句 中 出 现 的 关系 都 出 现在 查询 0 的 FROM 子 句 里面 。 

2. 查询 0 的 条 件 表达 式 可 以 写成 VAND C 的 条 件 表达 式 ， 其 中 C = 

movieTitle = title AND movieYear = year AND name = ’Max Bialystock’ 

3. C 中 来 自 于 V 中 关系 (Movies 和 MovieExec ) 的 属性 为 title、year 和 name。 所 有 这 些 属 
性 都 在 V 的 SELECT 子 名 中 出 现 。 

4. 出 现在 查询 0 的 SELECT 列 表 中 的 属性 不 属于 V 中 FROM 列 表 中 的 任何 一 个 关系 。 
所 以 可 以 在 查询 0 中 使 用 视图 VY， 将 查询 重 写 为 下 面 的 形式 : 

SELECT starName 

FROM StarsIn, MovieProd 


WHERE movieTitle = title AND movieYear = year AND 
name = ’Max Bialystock’; 


也 就 是 说 ， 用 物化 视图 MovieProd 替 换 原 查询 中 FROM 子 句 里 面 的 关系 Movies 和 MovieExec， 同 
时 将 视图 的 条 件 从 WHERE 子 句 中 去 掉 ， 仅 仅 保留 条 件 C。 由 于 重 写 后 的 查询 只 涉及 两 个 关系 的 
连接 而 非 原来 的 三 个 ， 所 以 重 写 后 的 查询 会 比 原 查 询 执行 得 更 快 。 口 


8.5.4 物化 视图 的 自动 创建 

在 8.4.4 节 讨论 的 关于 索引 的 一 些 思想 同样 也 适用 于 物化 视图 。 首 先 要 确立 或 者 估算 出 查 
询 的 工作 集 。 一 个 自动 物化 视图 的 选择 顾问 也 需要 产生 一 些 候选 视图 ， 而 不 幸 的 是 这 个 任务 
远 比 产生 候选 索引 困难 。 对 于 索引 而 言 ， 每 个 关系 的 每 个 属性 仅 有 一 种 可 能 的 索引 。 尽 管 可 
能 会 在 关系 的 小 的 属性 集 上 建立 索引 ， 但 是 为 它 生 成 所 有 候选 索引 是 直接 的 。 然 而 ， 对 于 物 
化 视图 ， 任 何 符合 规则 的 查询 都 可 以 用 来 定义 一 个 视图 ， 所 以 可 以 考虑 任何 视图 。 

如 果 我 们 牢记 物化 视图 的 创建 至 少 对 于 可 能 期 待 的 一 个 查询 有 帮助 ， 那 么 处 理 可 以 被 限 
制 。 举 例 来 说 ， 假 设 工作 集中 所 有 或 者 部 分 查询 都 具有 8.5.3 节 中 的 形式 ， 那 么 就 可 以 使 用 该 
节 中 的 分 析 来 找到 对 查询 有 帮助 的 视图 。 可 以 限定 候选 的 物化 视图 为 : 

1. 视图 FROM 子 句 中 的 关系 列表 至 少 是 工作 集中 一 个 查询 的 FROM 语句 关系 列表 的 子 集 。 

2. WHERE 子 句 中 的 条 件 表达 式 至 少 是 一 个 查询 中 条 件 表 达 式 的 逻辑 与 条 件 。 

3. SELECT 子 句 中 的 属性 列表 至 少 对 于 一 个 查询 来 说 是 足够 的 。 

为 了 评估 使 用 物化 视图 带 来 的 效益 ， 分 别 在 使 用 和 不 使 用 物化 视图 的 情况 下 ， 让 查询 优 
化 器 给 出 查询 运行 的 时 间 估 计 。 当 然 ， 查 询 优化 器 必须 被 设计 成 知道 怎样 利用 物化 视图 。 所 
有 现代 的 查询 优化 器 都 知道 怎样 利用 索引 来 提高 效率 ， 但 并 不 是 所 有 的 优化 器 都 知道 利用 物 
化 视图 。 如 果 优 化 器 要 利用 物化 视图 ， 则 8.5.3 节 就 是 有 必要 使 用 查询 优化 器 的 一 个 例子 。 

当 考虑 物化 视图 的 自动 选择 时 ， 会 出 现 另 外 一 个 癌 题 ， 这 个 问题 不 会 在 考虑 索引 时 出 现 。 
关系 上 的 索引 一 般 比 关系 本 身 更 小 ， 而 且 一 个 关系 上 所 有 的 索引 都 占据 着 同样 的 物理 空间 。 
但 是 不 同 的 物化 视图 所 占 的 空间 尺寸 相差 非常 大 ， 有 些 〈 比 如 涉及 连接 操作 的 ) 视图 会 比 关 
系 本 身 大 得 多 。 所 以 需要 重新 考虑 物化 视图 的 “收益 ”问题 。 比 如 ， 可 以 用 查询 的 平均 执行 
时 间 的 改进 除 以 视图 所 占用 的 空间 来 衡量 “收益 ”。 
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8.5.5 习题 

习题 8.5.1 完成 例 8.15 的 练习 ， 分 别 考 虑 对 其 中 的 每 一 个 基本 表 做 修改 。 

! 习 题 8.5.2 ”假设 例 8.2.3 中 的 视图 NewPC 是 一 个 物化 视图 ， 请 问 对 基本 表 Product 和 PC 做 什么 样 的 修改 时 
会 要 求 对 物化 视图 做 出 相应 的 修改 ?你 怎样 用 增 量 式 的 维护 方法 实现 这 些 修改 ? 

! 习 题 8.5.3 本 习题 将 探讨 基于 聚集 数据 的 物化 视图 。 假 设 物 化 视图 是 基于 下 面 的 来 自 舰 船 习题 的 基本 表 : 


Classes(class, type, country, numGuns, bore, displacement) 
Ships (name, class, launched) 
该 视图 定义 如 下 : 
CREATE MATERIALIZED VIEW ShipStats AS 
SELECT country, AVG(displacement), COUNT(*) 
FROM Classes, Ships 
WHERE Classes.class = Ships.class 
GROUP BY country; 


请 问 ， 当 对 基本 表 C1lasses 和 Ships 做 什么 样 的 更 新 时 才 会 要 求 对 物化 视图 做 出 相应 的 更 新 ?你 怎样 
用 增 量 式 的 维护 方法 实现 这 些 更 新 ? 

! 习 题 8.5.4 ”在 8.5.3 节 中 给 出 了 一 个 条 件 ， 在 这 个 条 件 下 的 简单 形式 的 物化 视图 可 以 用 于 执行 简单 形式 
的 查询 。 对 于 例 8.15 的 视图 ， 请 给 出 所 有 能 够 使 用 该 物化 视图 的 查询 形式 。 


8.6 小 结 


。 虚 拟 视图 (Virtual View) : 虚拟 视图 描述 了 怎样 从 数据 库 中 存储 的 表 或 者 其 他 视图 逻辑 
地 构造 出 一 个 新 的 关系 《视图 )。 视 图 可 以 被 查询 就 好 像 它 是 存储 的 关系 一 样 。 查 询 处 
理 器 会 修改 该 查询 ， 将 其 中 的 视图 替换 成 定义 该 视图 的 基本 表 。 

。 可 更 新 视图 (Updatable View): 有 些 仅 基于 一 个 关系 的 虚拟 视图 是 可 更 新 的 ， 这 意味 着 
能 对 该 视图 作 插 入 、 删 除 以 及 修改 操作 ， 就 好 像 它 是 存储 的 表 一 样 。 这 些 操作 会 转换 为 
等 效 的 对 定义 该 视图 的 基本 表 上 的 修改 。 

。 替换 触发 器 (Instead-Of Trigger) : SQL 允许 一 类 特殊 的 触发 器 应 用 于 虚拟 视图 。 当 对 视 
图 的 更 新 发 生 时 ， 替 换 触发 器 就 会 将 该 更 新 操作 转换 为 触发 器 中 指定 的 作用 于 基本 表 的 
操作 。 

。 索 引 (Index): 尽管 索引 并 不 是 SQL 标准 的 一 部 分 ， 但 是 商用 SQL 系统 都 允许 在 属性 上 
建立 索引 。 当 查询 或 者 更 新 操作 涉及 建 有 索引 的 属性 (组 ) 的 某 个 特定 值 或 者 一 个 取 值 
范围 时 ， 索 引 能 够 加 速 该 查询 的 执行 。 

。 索 引 选 择 (Choosing Index): 在 索引 加 速 查询 的 同时 ， 它 也 会 减 慢 数据 库 的 更 新 ， 因 为 
对 于 要 更 新 的 关系 来 说 ， 它 上 面 的 索引 也 需要 被 更 新 。 所 以 索引 的 选择 是 一 个 很 复杂 的 
问题 ， 是 不 是 要 建立 索引 取决 于 对 数据 库 的 操作 中 执行 查询 和 更 新 所 占 比重 。 

。 自动 索引 选择 (Automatic Index Selection): 有 些 DBMS 会 提供 工具 用 于 为 数据 库 自动 
选择 索引 。 它 们 考察 在 数据 库 上 执行 的 一 些 典 型 的 查询 和 更 新 ， 并 以 此 评估 各 种 可 能 的 
索引 所 带 来 的 开销 。 

。 物化 视图 (Materialized View): 除了 把 视图 当 作 基本 表 上 的 一 个 查询 外 ， 也 可 以 将 它 定 
义 为 一 个 额外 存储 下 来 的 关系 ， 即 物化 视图 。 它 的 值 是 基本 表 的 值 的 一 个 函数 。 

。 物化 视图 的 维护 (Maintaining Materialized View): 当 基 本 表 改 变 时 ， 必 须 对 值 受 到 改 
变 影 响 的 物化 视图 进行 相应 的 修改 。 对 于 很 多 常见 类 型 的 物化 视图 来 说 ， 可 以 使 用 增 量 
式 的 维护 方法 ， 这 样 可 以 不 需要 重新 计算 整个 视图 。 


。 通 过 查询 重 写 来 使 用 物化 视图 (Rewriting Queries to Use Materialized View): 重 写 查询 
以 使 得 它 可 以 利用 物化 视图 的 条 件 很 复杂 。 然 而 ， 如 果 查 询 优化 器 能 够 执行 这 样 的 查询 
重 写 ， 则 自动 设计 工具 就 可 以 评估 出 由 于 建立 物化 视图 所 带 来 的 性 能 改进 ， 从 而 自动 地 
选择 一 些 视图 将 其 进行 物化 。 
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第 9 章 服务 器 环境 下 的 SQL 


现在 开始 思考 一 个 问题 : 怎样 把 SQL 伐 入 到 一 个 完整 的 编程 环境 中 。 典 型 的 服务 器 环境 
在 9.1 布 中 进行 介绍 。9.2 节 阐述 了 客户 一 服务 器 处 理 以 及 数据 库 连 接 中 的 SQL 术 语 。 

接着 开始 讨论 当 SQL 必 须 作 为 典型 应 用 程序 的 一 部 分 而 用 于 访问 数据 库 时 ， 实 际 编程 怎 
样 完成 。 在 9.3 市 介绍 怎样 将 SQL 做 入 到 一 些 用 普通 编程 语言 (例如 C) 编写 的 程序 中 。 一 个 
关键 问题 是 怎样 在 SQL 关系 和 环境 变量 ， 或 者 “宿主 ”语言 之 间 移 动 数 据 。9.4 节 考虑 另外 一 
种 结合 SQL 与 通用 程序 设计 语言 的 编程 方法 : 持久 存储 模块 ， 它 是 一 些 作为 部 分 数据 库 模 式 
的 存储 代码 片断 ， 同 时 由 用 户 命令 执行 。 

第 三 种 编程 方法 称 做 “调用 层 接口 ”， 利 用 它 可 以 使 用 传统 的 语言 与 函数 库 进 行 编 程 和 访问 
数据 库 。9.5 节 讨论 名 为 SQL/CLI 的 SQL 标准 库 ， 它 能 在 C 程 序 中 进行 调用 。9.6 节 会 介绍 Java 的 
JDBC (数据 库 连接 ) ， 它 也 是 一 种 调用 层 接口 。 最 后 ，9.7 节 介绍 另 一 种 流行 的 调用 层 接口 PHP。 


9.1 三 层 体系 结构 


数据 库 有 各 种 不 同 的 规模 ， 包 括 小 的 单机 型 数据 库 。 例 如 ， 一 个 科学 家 可 以 使 用 实验 室 
电脑 运行 MySQL 或 者 Microsoft Access 来 存储 实验 数据 。 然 而 ， 大 型 数据 库 的 安装 具有 通用 的 
体系 结构 ， 这 一 章 就 是 讨论 这 类 体系 结构 。 这 种 体系 结构 称 为 三 层 (three-tier) 或 者 三 阶 
(three-layer) 的 ， 因 为 它 区 分 三 种 不 同 而 又 相互 关联 的 功能 : 

1. Web 服 务 器 (Web Server) 。 它 是 指 那些 连接 客户 端 与 数据 库 系统 的 进程 ， 通 常 通过 
Internet 或 者 本 地 连接 进行 侣 作 。 

2. 应 用 服务 器 (Application Server)。 这 些 进程 执行 “交易 逻辑 ”， 即 系统 有 意 要 做 的 所 
有 操作 。 

3. 数据 库 服务 器 (Database Server) 。 这 些 进程 运行 DBMS 并 且 执 行 应 用 服务 器 请 求 的 查 
询 和 更 新 。 

所 有 这 些 进 程 可 以 在 一 个 小 型 系统 的 同一 个 处 理 器 上 运行 ， 但 是 更 为 普遍 的 做 法 是 每 一 
层 分 别 分 配 大 量 的 处 理 器 。 图 9-1 给 出 了 怎样 组 织 一 个 大 型 数据 库 的 安装 。 


9.1.1 _ Web 服务器 层 

Web 服 务 器 进程 管理 与 用 户 的 交互 。 当 用 户 发 起 连接 时 ， 可 能 是 通过 打开 URL，Web 服 务 
器 则 响应 用 户 请 求 ， 具 有 代表 性 的 是 运行 Apache/Tomcat 来 完成 该 过 程 。 之 后 用 户 便 成 为 Web 
服务 器 进程 的 一 个 客户 端 (client)。 具 有 代表 性 的 是 Web 浏 览 器 将 执行 客户 端的 操作 ， 例 如 管 
理 表单 的 填写 ， 而 表单 将 被 提交 给 Web 服 务 器 。 

以 Amazon.com 网 站 为 例 。 一 个 用 户 (客户 ) 在 浏览 器 中 输入 URL 地 址 www.amazon.com 
打开 与 Amazon 数 据 库 系统 的 连接 。 数 据 库 系 统 的 Web 服 务 器 则 将 “主页 ”呈现 给 用 户 ， 其 中 
包括 能 表达 用 户 想 要 操作 的 表单 、 菜 单 和 按钮 。 例 如 ， 用 户 点 击 书籍 (book) 菜单 ， 输 入 他 
们 感 兴趣 的 书籍 的 名 字 ， 客 户 端 Web 浏 览 器 将 这 条 消息 提交 给 Amazon 的 Web 服 务 器 ， 而 Web 
服务 器 必须 与 下 一 层 (应 用 层 ) 进行 洽谈 ， 才 能 完成 客户 端的 请 求 。 
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图 9-1 三 层 体系 结构 


9.1.2 应 用 层 

应 用 层 的 工作 是 将 数据 作为 响应 从 数据 库 发 回 给 那些 从 Web 服 务 器 获得 的 请 求 。 每 一 个 
Web 服 务 器 的 进程 可 以 调用 一 个 或 者 多 个 应 用 层 的 进程 来 处 理 请 求 ， 这 些 进 程 可 以 在 一 台 或 
者 多 台 机 器 上 运行 ， 还 可 以 运行 在 与 Web 服 务 器 进程 相同 或 者 不 同 的 机 器 上 。 

被 应 用 层 执行 的 操作 通常 被 称 为 数据 库 运行 结构 的 交易 远 辑 (business logic)。 换 句 话说 ， 
应 用 层 是 根据 推理 潜在 客户 的 请 求 响 应 和 实现 这 些 推理 的 策略 来 设计 。 

以 Amazon.com 上 的 书籍 信息 为 例 ， 客 户 请 求 将 作为 Amazon 显 示 书 籍 信息 主页 的 一 个 组 
成 元 素 。 这 些 信息 包括 书 名 、 作 者 、 价 格 以 及 其 他 一 些 关于 书籍 的 数据 。 另 外 还 包括 一 些 相 
关 的 链接 信息 ， 例 如 评论 、 卖 家 信息 和 类 似 书 籍 的 信息 。 

对 于 一 个 简单 的 系统 ， 应 用 层 可 以 在 一 个 HTML 页 面 中 直接 向 数据 库 层 发 出 查询 请 求 ， 以 及 
汇集 这 些 查 询 请 求 的 结果 。 而 稍微 复杂 一 点 的 系统 ， 则 有 许多 应 用 层 的 子 层 结构 ， 它 们 每 一 个 都 
县 有 自己 的 进程 。 一 种 常见 的 结构 是 其 中 的 一 些 子 层 支持 “对 象 "。 这 些 对 象 包括 一 些 数据 信息 ， 
例如 “书籍 对 象 ”的 书 名 和 价格 。 对 象 的 数据 信息 通过 数据 库 查 询 获得 。 对 象 还 包含 了 一 些 被 应 
用 层 进程 调用 的 方法 ， 如 果 这 些 方法 被 调用 时 ， 还 会 依次 引起 被 提交 给 数据 库 的 附加 查询 。 

另外 的 子 层 则 支持 数据 库 集 成 (database integration) 。 也 就 是 说 ， 有 多 个 完全 独立 的 数 
据 库 支持 应 用 操作 ， 但 是 它们 一 次 提交 的 查询 不 可 能 包含 多 个 数据 库 数 据 。 来 自 不 同 源 的 查 
询 结果 需要 在 集成 子 层 进行 组 合 。 这 些 数据 库 在 多 个 重要 方面 的 互 不 兼容 使 集成 更 加 复杂 。 
信息 集成 技术 将 在 别处 讨论 。 而 在 这 里 ， 思 考 下 面 这 个 假设 的 例子 。 

例 9.1 _ Amazon 数据 库 包含 了 书籍 的 信息 ， 其 中 用 美元 表示 书本 的 价格 。 但 是 对 于 来 自 欧 
洲 的 用 户 ， 他 们 的 账户 信息 在 位 于 欧洲 的 另外 一 个 数据 库 中 ， 同 时 账单 票据 信息 都 是 用 欧元 
表示 。 当 数据 集成 子 层 从 数据 库 获 得 书籍 价格 同时 将 此 价格 信息 填 人 呈现 给 客户 的 账单 时 ， 
它 需要 知道 两 种 货币 的 不 同 。 口 
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9.1.3 数据 库 层 

类 似 于 其 他 两 层 ， 数 据 库 层 也 具有 多 个 进程 ， 它 们 能 被 分 配 到 多 台 机 器 ， 也 可 以 在 一 台 
机 器 上 共同 工作 。 数 据 库 层 负 责 执 行 那些 来 自 应 用 层 请 求 的 查询 ， 另 外 还 提供 一 些 数据 缓冲 。 
例如 ， 产 生 很 多 结果 元 组 的 查询 可 以 一 次 只 提供 一 个 元 组 给 应 用 层 的 请 求 进程 。 

由 于 与 数据 库 连 接 的 时 间 不 能 忽略 ， 通 常会 保持 一 定数 量 的 连接 处 于 开放 状态 ， 同 时 允 
许 应 用 进程 共享 这 些 连 接 。 为 了 避免 应 用 进程 之 间 的 一 些 异 常 交互 ， 每 个 应 用 进程 必须 返回 
它 获 得 的 连接 状态 。 

本 章 剩 下 的 部 分 主要 是 关于 怎样 去 实现 一 个 数据 库 层 。 尤 其 需要 学 习 的 是 : 

1. 怎样 使 数据 库 与 诸如 C 或 者 Java 之 类 传统 语言 编写 的 “普通 ”程序 进行 交互 ? 

2. 怎样 解决 SQL 和 传统 语言 在 数据 类 型 上 的 差异 ? 需要 特别 指出 的 是 ， 查 询 请 求 的 结果 
是 关系 ， 但 它们 不 直接 被 传统 语言 所 支持 。 

3. 当 与 数据 库 的 连接 被 一 些 短暂 进程 共享 了 时， 怎样 管理 这 些 连接 ? 


9.2 SQL 环境 


这 一 节 尽 可 能 广泛 地 查看 DBMS 和 其 所 支持 的 数据 库 和 程序 。 从 这 里 可 以 看 到 数据 库 是 如 何 
被 定义 以 及 如 何 组 成 敌 、 目 录 和 模式 ， 还 可 以 看 到 程序 如 何 与 它们 需要 操作 的 数据 连接 。 由 于 
许多 细节 依赖 于 特定 的 实现 ， 因 此 这 里 着 重 于 描述 SQL 标准 包含 的 一 般 思想 。9.5 节 、9.6 节 和 9.7 
节 阐 述 了 这 些 高 级 的 概念 如 何 出 现在 “调用 层 接口 "， 它 要 求 程序 员 对 数据 库 作 出 显 式 的 连接 。 


9.2.1 环境 

SQL 环境 (environment) 是 一 个 框架 ， 该 框架 下 可 以 存在 数据 ， 可 以 对 数据 进行 SQL 操 
作 。 实 际 上 ，SQL 环 境 可 以 看 做 安装 并 运行 在 某 些 系 统 上 的 DBMS 。 例 如 ，ABC 公 司 买 了 
Megatron 2010 DBMS 的 许可 证 以 便 在 ABC 的 机 器 上 运行 。 于 是 运行 在 这 些 机 器 上 的 系统 便 是 
SQL 环境 。 

前 面 已 经 讨论 了 数据 库 的 所 有 元 素 一 一 表 、 视图 、 触发 器 等 ， 它 们 都 是 在 SQL 环境 中 定义 的 。 
这 些 元 素 组 成 了 层次 性 结构 ,每 个 元 素 在 该 结构 中 扮演 不 同 的 角色 。 图 9-2 给 出 了 SQL 的 标准 结构 。 






环境 =DBMS 
的 安装 


图 9-2 环境 中 数据 库 元 素 的 组 织 结 构 
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简短 地 说 ， 这 个 结构 的 内 容 如 下 所 示 : 

1. 模式 〈schema) 。 模 式 是 表 、 视 图 、 断 言 、 触 发 器 和 其 他 信息 类 型 (参见 9.2.2 节 的 “更 
多 模式 元 素 ” 框 ) 的 集合 。 模 式 是 组 织 的 基本 单元 ， 可 近似 地 当 作 “数据 库 ”， 不 过 事实 上 ， 
在 某 种 程度 上 它 比 数据 库 要 略微 小 一 些 ， 下 面 第 (3) 点 可 以 看 到 。 

2. 目录 (catalog)。 这 是 模式 的 集合 ， 是 支持 唯一 的 可 访问 术语 的 基本 单元 。 每 个 目录 有 
一 个 或 多 个 模式 ， 目 录 中 的 模式 名 必须 唯一 ， 每 个 目录 包含 一 个 叫 IMFORMATION_SCHEMA 的 特 
殊 模式 ， 这 个 模式 包含 了 该 目录 中 所 有 模式 的 信息 。 

3. 蒜 (cluster)。 这 是 目录 的 集合 。 每 个 用 户 有 一 个 关联 的 簇 : 用 户 可 访问 的 所 有 目录 的 
集合 (参见 10.1 节 解释 如 何 访问 目录 和 其 他 受 控 的 元 素 ) 。 徐 是 被 提交 的 查询 的 最 大 范围 ， 故 
在 一 定 程度 上 ， 徐 是 特定 用 户 所 看 到 的 “数据 库 ”。 


9.2.2 模式 
模式 声明 的 最 简 形 式 如 下 : 
CREATE SCHEMA < 模式 名 > “元 素 声明 》 
元 素 声 明 采 用 的 是 如 2.3 节 、8.1.1 节 、7.5,1 节 和 9.4.1 节 等 不 同 地 方 讨论 的 形式 。 
例 9.2 ”声明 一 个 模式 ， 该 模式 包括 关于 本 书 一 直 使 用 的 电影 例子 中 的 五 个 关系 ， 加 上 一 





些 其 他 已 经 介绍 的 元 素 ， 如 视图 。 图 9-3 描 述 了 这 样 的 声明 。 器 
Rs 避风 CREATE SCHEMA MovieSchema 

使 用 合适 的 CREATE、DROP 或 ALTER 语 句 来 修改 CREATE TABLE Moviestar ..， 图 7-3 所 示 

或 增加 模式 ， 例 如 ，CREATE TABLE 后 跟随 模式 另外 4 张 表 的 声明 语句 

里 一 张 新 表 的 声明 。 使 用 SET SCHEMA 语 名 改变 CREATE VIEW MovieProd ..， 例 8.2 所 示 

网 办 3 其 他 视图 的 声明 

当前 ”的 模式 。 例 如 ， CREATE rr Richpres ... 例 7.11 所 示 
SET SCHEMA MovieSchema; 

将 使 图 9-3 描 述 的 模式 作为 当前 模式 。 于是， 任何 图 9-3 模式 声明 

模式 元 素 的 声明 都 被 加 到 该 模式 中 ， 任 何 DROP 或 ALTER 语 句 都 是 指 已 经 在 该 模式 中 的 元 素 。 


更 多 模式 元 素 
有 些 没有 提 到 的 模式 元 素 偶尔 也 能 使 用 到 ， 如 
。 域 (Domain): 值 或 简单 数据 类 型 集合 。 现 在 很 少 用 到 了 ， 因 为 对 象 -关系 数据 库 提 
供 了 更 强大 的 创建 类 型 的 机 制 ， 参 见 10.4 节 。 
。 字 符 集 (Character set) : 符号 以 及 如 何 编 制 它 们 的 方法 的 集合 。ASCII 和 Unicode 是 较 
为 常见 的 字符 集 。 


。 核 对 〈Collation) ， 核对 具体 说 明 哪些 字符 “小 于 ”另外 哪些 字符 。 例 如 ， 可 以 用 
ASCII 码 隐 含 的 顺序 ， 或 可 以 把 小 写 和 大 写字 符 看 作 是 相同 的 ， 并 且 不 比较 那些 非 字 
母 的 字符 。 

。 授权 语句 (Grant statement): 它 关 心 的 是 谁 可 以 访问 模式 元 素 。10.1 节 将 讨论 授权 优 
先 级 问题 。 

。 存储 过 程 (Stored Procedure)， 可 执行 代码 ， 参 见 9.4 节 。 





9.2.3 目录 
正如 像 表 一 类 的 模式 元 素 在 模式 中 创建 一 样 ， 模 式 的 创建 和 修改 是 在 目录 中 。 原 则 上 ， 
希望 目录 的 创建 和 增加 进程 与 模式 的 创建 和 增加 进程 类 似 。 不 幸 的 是 ，SQL 没 有 定义 一 个 标 
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准 来 这 么 做 ， 如 语句 
CREATE CATALOG < 目录 名 > 

使 得 后 面 紧 跟 着 的 是 属于 该 目录 的 模式 列表 和 那些 模式 的 声明 。 
然而 ，SQL 又 规定 了 语句 
SET CATALOG < 目录 名 > 


这 条 语句 允许 设置 “当前 ”目录 ， 因 此 ， 新 的 模式 将 进入 那个 目录 ， 并 且 如 果 存在 名 字 冲 突 
的 话 ， 修 改 的 模式 将 是 指向 当前 目录 的 模式 。 


9.2.4 SQL 环境 中 的 客户 和 服务 器 

SQL 环境 不 仅仅 是 目录 和 模式 的 集合 ， 它 还 包含 这 样 的 元 素 : 该 元 素 的 目的 是 支持 数据 
库 上 操作 或 者 是 那些 目录 和 模式 代表 的 数据 库 中 的 操作 。 依 照 SQL 标 准 ，SQL 环 境 有 两 种 特 
殊 的 进程 : SQL 客户 和 SQL 服务 器 。 

根据 图 9-1， 术 语 “SQL 服务 器 ”扮演 着 “数据 库 服务 器 ”的 角色 。 “SQL 客户 ” 则 类 似 于 
应 用 服务 器 。 标 准 SQL 没 有 定义 诸如 “Web 服 务 器 ”和 “客户 端 ”之 类 的 进程 。 


模式 元 素 的 完全 名 
形式 上 ， 像 表 这 样 的 模式 元 素 的 名 称 是 它 的 目录 名 称 、 它 的 模式 名 和 它 自 己 的 名 称 ， 
并 且 这 些 名 称 间 以 这 种 顺序 用 点 连接 。 因 此 ， 目 录 MovieCatalog 中 的 模式 MovieSchema 的 
表 Movie 的 引用 如 下 : 


MovieCatalog.MovieSchema.Movies 
如 果 目 录 是 缺 省 的 或 是 当前 的 目录 ， 那 么 可 以 省 去 目录 名 。 如 果 模 式 也 是 缺 省 的 或 当 
前 的 模式 ， 那 么 模式 部 分 也 可 以 省 去 ， 这 样 只 留 下 元 素 自 己 的 名 称 。 然 而 ， 当 需要 访问 当 
前 模式 或 目录 以 外 的 元 素 时 ， 就 不 得 不 使 用 完全 名 。 





9.2.5 连接 
如 果 在 SQL 客户 端 主机 上 运行 包含 了 SQL 的 程序 ， 那 么 将 通过 下 面 的 SQL 语句 打开 客户 和 
服务 器 之 间 的 连接 : 


CONNECT TO 《服务 器 名 > AS < 连接 名 > 
AUTHORIZATION 《< 名字 和 密码 > 

服务 器 名 依赖 于 安装 。 单 词 DEFAULT 可 以 替代 一 个 名 称 且 将 用 户 连接 到 任何 被 作为 “ 缺 省 
服务 器 ”安装 的 SQL 服务 器 。 授 权 子 句 后 跟随 着 用 户 名 和 密码 。 虽 然 AUTHORIZATION 后 可 以 跟 
随 其 他 的 字符 串 ， 但 密码 是 用 户 被 服务 器 识别 的 典型 方式 。 

连接 名 可 以 在 以 后 用 来 引用 连接 。3 引 用 连接 的 原因 是 SQE 人 允许 用 户 打 开 好 几 个 连接 ， 但 
是 任何 时 候 只 有 一 个 连接 有 效 。 为 了 切换 连接 ， 可 以 用 下 面 的 语句 将 conn1 变 成 有 效 连接 : 

SET CONNECTION connl; 
任何 当前 有 效 的 连接 进入 休眠 (dormant) 状态 后 ， 只 有 用 SET CONNECTION 语 句 显 式 地 调用 才 
能 将 其 沂 活 。 

当 断 开 连 接 时 也 要 用 连接 名 。 断 开 连 接 conn1 的 语句 如 下 : 

DISCONNECT connl; 
现在 ，conn1 被 中 止 。 它 不 是 休眠 ， 也 不 能 被 激 话 。 

然而 ， 如 果 连 接 创 建 后 再 也 不 被 引用 ， 那 么 CONNECT T0 子 句 中 的 AS 和 连接 名 可 以 省 略 ， 
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也 可 以 完全 省 略 连接 语句 。 如 果 仅 仅 在 主机 和 SQL 客户 之 间 执 行 SQL 语 句 ， 那 么 可 以 建立 一 
个 缺 省 的 连接 。 
9.2.6 会 话 

连接 有 效 时 ， 执 行 的 SQL 操作 形成 了 一 个 
会 话 (Session ) 。 会 话 和 创建 它 的 连接 具有 相 
同 的 生命 周期 。 例 如 ， 当 连接 处 于 休眠 状态 时 ， 
它 的 会 话 也 处 于 休眠 态 ，SET- CONNECTION 语句 
可 以 激活 连接 ， 同 时 也 激活 了 相应 的 会 话 。 因 
此 ， 会 话 和 连接 是 客户 和 服务 器 之 间 链 路 的 两 
个 方面 ， 见 图 9-4。 

每 个 会 话 有 一 个 当前 目录 和 该 目录 中 的 一 
个 当前 模式 。 这 些 由 语句 SET SCHEMA 和 SET 
CATAL06 进 行 设 置 ， 它 们 都 在 9.2.2 节 和 9.2.3 节 
中 讨论 过 。 每 个 会 话 都 有 一 个 授权 用 户 ， 对 此 图 9-4 SQL 客户 _ 服 务 器 的 交互 图 
将 在 10.1 节 讨论 。 





SQL 标准 语言 
符合 SQL 标准 的 实现 要 求 支持 以 下 七 种 宿主 语言 中 的 至 少 一 种 : ADA、C、Cobol、 


Fortran、M (早期 叫 Mumps， 主 要 应 用 于 医疗 业 )、Pascal 和 PL/I。 本 书 例子 中 用 的 是 C 语 





9.2.7 模块 

模块 (module) 是 对 应 用 程序 而 言 的 SQL 术 语 。SQL 标 准 提出 了 三 种 模块 ， 但 是 仅 要 求 
SQL 的 实现 中 至 少 提 供 一 种 类 型 给 用 户 。 

1. 普通 SQL 界面 (Generic SQL interface)。 用 户 可 以 键入 SQL 服 务 器 执行 的 SQL 语 句 。 这 
种 模式 下 ， 每 个 查询 或 其 他 语句 本 身 是 一 个 模块 。 虽 然 这 种 模式 实际 上 很 少 使 用 ， 但 是 本 书 
中 大 多 数 例 子 都 是 这 种 模块 。 

2. 眶 套 SQL (Embedded SQL)。 这 种 类 型 将 在 9.3 节 讨论 。 预 处 理 器 将 这 个 奥 套 的 SQL 语 
句 转 变 为 SQL 系统 的 对 应 函数 或 过 程 调用 。 编 译 后 的 宿主 语言 程序 (包括 这 些 函 数 调 用 ) 是 
一 个 模块 。 

3. 真 模块 (True module)。SQL 设 想 模块 的 最 为 一 般 形式 是 一 个 含有 存储 函数 或 过 程 集 合 
的 模块 ， 这 些 函 数 或 过 程 一 部 分 是 宿主 语言 代码 ， 一 部 分 是 SQL 语句 。 它 们 之 间 可 以 通过 参 
数 也 可 以 通过 共享 变量 进行 通讯 。PSM 模 块 〈9.4 节 ) 就 是 这 样 的 一 个 例子 。 

模块 的 执行 被 称 为 SQL 代理 (agent)。 图 9-4 显 示 了 模块 和 SQL 代理 作为 一 个 单元 ， 通 过 
访问 SQL 客户 建立 与 数据 库 的 连接 。 然 而 ， 模 块 和 SQL 代理 的 区 别 与 程序 和 进程 的 区 别 相 
似 ， 前 者 是 代码 ， 后 者 是 代码 的 执行 。 


9.3 SQL/ 宿 主语 言 接 口 


到 目前 为 止 ， 例 子 中 都 使 用 了 普通 SQL 界面 (Generic SQL interface) 。 也 就 是 说 ， 假 定 有 
一 个 SQL 解释 器 来 接受 和 执行 各 种 已 经 学 习 过 的 SQL 查询 和 命令 。 虽 然 这 种 操作 模式 几乎 是 由 
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所 有 的 DBMS 作 为 一 个 选项 提供 的 ， 但 实际 很 少 用 到 。 在 真实 的 系统 中 ， 诸 如 9.1 节 所 描述 的 那 
样 ， 用 宿主 语言 (host language) (例如 C) 编写 
的 程序 中 ， 一 些 步骤 实际 上 就 是 SQL 语句 。 人 宿主 语言 


包含 SQL 语句 的 典型 编程 系统 的 框架 如 图 9-5 左 春 SOL 
所 示 。 图 中 ， 程 序 员 用 一 种 宿主 语言 编程 ， 但 是 
程序 中 用 到 了 一 些 特殊 的 “ 嵌 套 ”SQL 语 句 。 这 | 预 处 理 器 
种 嵌 套 可 以 有 两 种 方式 实现 。 

1. 调用 层 接口 (Call-level interface)。 提 供 宿主 语言 
一 个 库 ， 该 库 中 函数 和 方法 的 调用 真正 指 代 的 就 ph 


是 宿主 语言 中 嵌入 的 SQL。 通 常 SQL 语 句 为 这 些 
方法 中 的 字符 型 参数 。 这 种 实现 方法 常常 被 称 为 
调用 层 接口 或 者 CLI， 将 在 9.5 节 进行 讨论 。 在 图 
9-5 中 从 用 户 直接 到 宿主 语言 的 曲线 箭头 即 为 这 种 
方法 。 目标 代码 程序 

2. 直接 谋 套 SQL (Directly embedded SQL ) 。 图 9-5 处 理 包含 倍 套 SQL 语句 的 过 程 
包含 了 典 套 SQL 语 句 的 整个 宿主 语言 程序 将 被 提 
交 给 预 处 理 器 ， 这 些 预 处 理 器 将 找 套 的 SQL 语 句 转 变 为 一 些 对 于 宿主 语言 有 意义 的 内 容 。 具 
有 代表 性 的 是 ， 调 用 库 中 的 函数 和 方法 来 代替 SQL 语句 ， 因 此 CLI 和 直接 艇 套 SQL 之 间 的 差别 
较 实 物 之 间 的 差别 更 具有 感官 性 。 预 处 理 的 宿主 语言 程序 用 传统 的 方式 进行 编译 ， 并 通过 执 
行 库 中 函数 和 方法 的 调用 来 操作 数据 库 。 

这 一 节 将 学 习 在 宿主 语言 特别 是 C 中 直接 和 嵌 套 的 SQL 标准 。 同 时 还 会 介绍 很 多 概念 ， 诸 如 
全 部 或 者 几乎 全 部 购 套 SQL 系 统 中 都 出 现 的 游标 。 


9.3.1 阻抗 不 匹配 问题 

连接 SQL 语句 和 那些 常规 的 编程 语言 的 基本 问题 就 是 阻抗 不 匹配 (impedance mismatch ) ， 
即 SQL 数 据 模式 与 其 他 语言 的 模式 差别 其 大 。 众 所 周知 ，SQL 的 核心 使 用 的 是 关系 数据 模型 。 
然而 ，C 和 其 他 普通 的 编程 语言 使 用 的 数据 模型 有 整 型 、 实 型 、 算 术 型 、 字 符 型 、 指 针 、 记 录 、 
数组 等 等 。 集 合 在 C 或 者 其 他 语言 中 不 能 直接 表示 ， 相 对 地 ，SQL 不 使 用 指针 、 循 环 和 分 支 ， 
或 者 其 他 普通 编程 语言 的 结构 体 。 因 此 ， 在 SQL 和 别 的 语言 之 间 不 能 直接 转移 数据 ， 必 须 设 
计 一 种 机 制 允许 程序 的 开发 既 可 以 使 用 SQL， 也 可 以 使 用 别 的 编程 语言 。 

首先 假设 只 用 单一 语言 ， 这 种 方法 看 来 可 取 。 也 即 是 ， 要 么 使 用 SQL 完成 所 有 的 计算 ， 
要 么 不 用 SQL， 只 用 和 党 规 语言 完成 所 有 的 计算 。 然 而 ， 当 涉及 数据 库 操作 时 ， 忽 略 SQL 的 想 
法 很 快 就 被 放弃 了 。SQL 系 统 很 大 程度 上 帮助 了 程序 员 编写 数据 库 操 作 ， 使 这 些 操 作 可 以 有 
效 地 执行 ， 并 且 是 以 很 高 的 级 别 表示 。SQL 降 低 了 程序 员 对 于 数据 在 存储 器 中 如 何 组 织 或 者 
如 何 利用 这 个 存储 结构 以 在 数据 库 中 高 效 运行 的 理解 需求 。 

另 一 方面 ， 有 许多 重要 的 事情 SQL 根 本 不 能 完成 。 例 如 ， 不 能 用 SQL 查 询 来 计算 数 n 的 阶 
乘 ， 这 个 问题 用 C 或 者 类 似 的 语言 就 可 以 很 轻松 地 完成 。 另 外 一 个 例子 是 ，SQL 不 能 把 输出 
直接 格式 化 到 图 表 等 常规 的 格式 中 。 所 以 ， 真正 的 数据 库 编 程 既 要 有 SQL， 也 要 有 宿主 语言 。 


SQL 库 





日 这 里 要 注意 ， 基 本 SQL 语言 的 扩展 ， 像 在 10.2 节 中 讨论 的 递归 SQL 或 者 9.4 节 中 讨论 的 SQL/PSM 一 样 ， 确 实 
提供 了 “图 灵 完 备 性 ” ， 也 就 是 说 ， 能 够 计算 用 其 他 编程 语言 计算 的 任何 问题 。 然 而 ， 这 些 扩 展 不 惟 备用 于 
通用 性 计算 ， 因 此 它们 不 被 看 作 是 通用 性 语言 。 
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9.3.2 SQL 与 宿主 语言 连接 

在 宿主 语言 中 使 用 SQL 语句 时 ， 通 过 语句 前 面 的 关键 字 EXEC SQL 提示 预 处 理 器 将 有 SQL 
代码 进入 。 数 据 库 只 能 由 SQL 语句 访问 ， 在 数据 库 和 宿主 语言 程序 之 间 的 信息 交换 是 通过 共 
享 变量 (shared variables) 实现 的 ， 这 种 变量 允许 出 现在 宿主 语言 和 SQL 语句 中 。SQL 中 共享 
变量 前 面 要 加 上 冒号 作为 前 绥 ， 而 在 宿主 语言 中 这 些 变量 并 不 需要 冒号 。 

在 SQL 标准 中 ，SQLSTATE 这 个 特殊 变量 用 于 连接 宿主 语言 程序 与 SQL 执行 系统 。SQLSTATE 
是 五 个 字符 的 数组 类 型 。 每 次 调用 SQL 的 库 国 数 ， 向 SQLSTATE 变 量 中 存放 一 个 代码 ， 该 代码 表 
示 调 用 过 程 中 出 现 的 问题 。SQL 标 准 同 时 指定 了 大 量 的 五 个 字符 的 代码 和 它们 的 意义 。 

例如 ， "00000” (五 个 零 ) 表示 没有 产生 任何 错误 ，“02000” 表 示 没 有 找到 作为 SQL 查 询 
结果 组 成 部 分 的 元 组 。 后 面 这 个 代码 非常 重要 ， 因 为 它 允 许 在 宿主 语言 程序 中 创建 一 个 循环 
并 且 每 执行 一 次 循环 检查 一 个 元 组 ， 当 关系 中 最 后 一 个 元 组 被 检查 后 中 止 这 个 循环 。 


9.3.3 DECLARE 节 
共享 变量 的 声明 加 入 到 如 下 两 个 嵌 套 SQL 语句 之 间 : 
EXEC SQL BEGIN DECLARE SECTION; 


EXEC SQL END DECLARE SECTION ; 

两 个 语句 之 间 称 为 声明 节 (declare section) 。 声 明 节 中 的 变量 声明 形式 可 以 是 宿主 语言 
求 的 任何 形式 。 为 使 声明 的 变量 有 意义 ， 甚 类 型 必须 是 宿主 语言 和 SQL 都 可 以 处 理 的 ， 如 整 
型 、 实 型 和 字符 型 ， 或 者 数组 类 型 。 

例 9.3 下 面 的 语句 是 修改 Studio 关 系 的 C 函 数 的 一 部 分 : 


EXEC SQL BEGIN DECLARE SECTION; 
char studioName [50] ，studioAddr [256] ; 
char SQLSTATE[6] ; 

EXEC SQL END DECLARE SECTION; 


第 一 个 和 最 后 一 个 语句 是 声明 节 必 需 的 开头 和 结束 。 中 间 的 语句 声明 了 两 个 共享 变量 
studioName 和 studioAddr 。 它 们 都 是 字符 型 数组 ， 如 将 看 到 的 ， 是 用 来 保存 一 个 电影 公司 的 
名 称 和 地 址 ， 它 们 被 组 成 一 个 元 组 并 插入 到 Studio 关 系 式 中 。 第 三 个 语句 将 SQLSTATE 声 明 为 
包含 六 个 字符 的 数组 9。 口 


9.3.4 使 用 共享 变量 

共享 变量 可 以 用 在 SQL 语句 中 任何 需要 和 人 允许 常量 的 地 方 。 回 忆 一 下 ， 共 享 变 量 这 样 使 
用 时 ， 都 要 加 前 绥 冒 号。 下面 的 例子 使 用 了 例 9.3 中 的 变量 作为 元 组 的 一 部 分 插入 到 Studio 关 
系 中 。 

例 9.4 ”图 9-6 中 显示 了 一 个 C 函 数 getStudio， 该 函数 要 求 用 户 提 供 一 个 电影 公司 的 名 称 
和 地 址 ， 读 取 结 果 ， 并 将 合适 的 元 组 插入 到 Studio。 第 (1) 到 第 (4) 行 是 例 9.3 中 已 知 的 声明 。 
图 中 省 略 了 打印 要 求 的 C 代 码 以 及 扫描 所 输入 的 文本 以 填写 到 两 个 数组 studioName 和 
studioAddr 的 C 代 码 。 

接着 ， 第 (5) 行 和 第 (6) 行 是 常规 的 INSERT 骨 套 SQL 语句 。 这 个 语句 以 EXEC SQL 开头 ， 表 明 
这 实际 上 是 一 个 嵌 套 SQL 语句 ， 而 非 不 符合 语法 的 C 代 码 。 和 前 面 的 例子 一 样 ， 第 (535) 行 和 第 

@ 对 于 5 字符 值 的 SQLSTATE 应 使 用 6 个 字符 ， 因 为 下 面 的 程序 中 ， 使 用 C 函 数 strcmp 来 测试 SQLSTATE 是 否 是 确 

定 的 值 。 既 然 strcmp 和 希望 字符 串 以 “\0， 结束 ， 那 么 对 于 这 个 结束 符 就 需要 第 六 个 字符 。 第 六 个 字符 必须 
初始 化 为 “\0' ， 后 面 的 程序 中 将 不 再 说 明 这 个 赋值 。 
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(6) 行 插入 的 值 不 是 显 式 常量 。 而 且 ， 第 (6) 行 中 出 现 的 值 是 共享 变量 ， 这 些 共享 变量 的 当前 值 
构成 了 被 插入 元 组 的 一 部 分 。 口 


void getStudio() { 


EXEC SQL BEGIN DECLARE SECTION; 
char studioName[50], studioAddr[256]; 
char SQLSTATE [6] ; 

EXEC SQL END DECLARE SECTION ; 


/* print request that studio name and address 
be entered and read response into variables 
studioName and studioAddr */ 


EXEC SQL INSERT INT0 Studio(name, address) 
VALUES (:studioName, :studioAddr); 





图 9-6 使 用 共享 变量 插入 新 的 电影 公司 


任何 不 返回 结果 的 SQL 语句 (也 就 是 说 ， 非 查询 语句 ) 都 可 以 用 EXEC SQL 为 前 缀 嵌入 到 
宿主 语言 中 。 可 媒 套 的 SQL 语句 的 例子 包括 删除 和 修改 语句 以 及 那些 创建 、 修 改 或 者 删除 表 
和 视图 之 类 模式 元 素 的 语句 。 

然而 ， 由 于 “阻抗 不 匹配 ”，select-from-where 查 询 不 能 直接 幢 套 到 宿主 语言 。 查 询 产 生 
的 结果 是 元 组 包 ， 但 是 大 多 数 宿主 语言 均 不 直接 支持 集合 或 包 数 据 类 型 。 因 此 ， 为 了 将 查询 
结果 与 宿主 语言 程序 相连 接 ， 航 套 SQL 不 得 不 从 下 面 两 种 机 制 中 选择 一 种 。 

1. 单元 组 选择 语句 (Single-Row SELECT statement) 。 只 有 一 个 结果 元 组 的 查询 可 以 将 该 
元 组 存储 到 共享 变量 中 ， 一 个 变量 对 应 元 组 的 一 个 分 量 。 

2. 游标 (Cursor) 。 如 果 为 查询 声明 一 个 游标 ， 那 么 产生 多 于 一 个 元 组 的 查询 就 可 以 执行 
了 。 游 标 范围 覆盖 了 结果 关系 中 的 所 有 元 组 ， 每 个 元 组 依次 被 提取 到 共享 变量 ， 并 由 宿主 语 
言 进 行 处 理 。 

下 面 依次 对 每 种 机 制 进行 讨论 。 


9.3.5 单元 组 选择 语句 

单元 组 选择 的 形式 类 似 于 普通 的 select-from-where 语 句 ， 只 是 除了 SELECT 子 句 后 紧 跟着 关 
键 字 INT0 和 一 连 串 的 共享 变量 。 与 SQL 语句 中 的 所 有 共享 变量 一 样 ， 这 些 共享 变量 以 冒号 作 
为 前 级 。 如 果 查 询 结 果 是 个 单一 元 组 ， 那 么 这 个 元 组 的 分 量 将 分 配给 这 些 变 量 并 成 为 它们 的 
值 。 如 果 结 果 没 有 元 组 或 者 多 于 一 个 元 组 ， 那 么 不 会 分 配给 这 些 共 享 变量 ， 同 时 一 个 相应 的 
错误 码 被 写 人 到 SQLSTATE 变 量 中 。 

例 9.5 ” 写 一 个 C 函 数 来 读 取 一 个 电影 公司 的 名 称 并 输出 电影 公司 制 片 经 理 的 资产 。 函 数 
如 图 9-7 所 示 。 它 开始 于 第 (1) 到 第 (5) 行 的 声明 部 分 ， 声 明了 全 部 所 需 的 变量 。 接 着 ，C 语 句 从 
标准 输入 获得 电影 公司 的 名 称 ， 但 这 部 分 没有 明确 写 出 。 

第 (6) 到 第 (9) 行 是 单元 组 选择 语句 ， 这 与 以 前 看 到 的 查询 十 分 相似 。 有 两 点 不 同 ; 一 是 在 
第 (9) 行 的 条 件 中 ， 变 量 studioName 的 值 代替 了 常量 字符 串 ， 二 是 第 (7) 行 有 一 个 INT0 子 句 显示 
了 查询 结果 放置 的 位 置 。 这 种 情况 下 ， 只 希望 产生 单一 的 元 组 ， 且 元 组 只 有 一 个 分 量 ， 即 属 
性 netWorth。 该 元 组 的 这 个 分 量 的 值 被 存储 在 共享 变量 presNetWorth 中 。 口 
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void printNetWorth() { 


EXEC SQL BEGIN DECLARE SECTION; 
char studioName[50]; 
int presNetWorth; 
char SQLSTATE[6] ; 

EXEC SQL END DECLARE SECTION; 


/* print request that studio name be entered . 
- read response into studioName */ 


EXEC SQL SELECT netWorth 
INT0 :presNetWorth 
FROM Studio, MovieExec 
WHERE presC# = cert# AND 
Studio ,name = :studioName; 


/* check that SQLSTATE has all 0’s and if so, print 
the value of presNetWorth */ 





图 9-7 赚 套 在 C 函 数 中 的 单元 组 选择 


9.3.6 游标 

将 SQL 查询 连接 到 宿主 语言 中 最 通用 的 方法 是 使 用 游标 ， 游 标 可 以 遍历 关系 的 元 组 。 这 
个 关系 可 以 是 一 个 被 存储 的 表 ， 也 可 以 是 由 查询 产生 的 结果 。 为 了 创建 和 使 用 游标 ， 需 要 下 
列 语句 : 

1, 游标 声明 。 游 标 声 明 的 最 简 形 式 如 下 : 

EXEC SQL DECLARE < 游标 名 称 > CURSOR FOR < 查询 > 
其 中 查询 可 以 是 通常 的 select-from-where 查 询 或 者 关系 名 。 游 标 范 围 (range) 覆盖 该 查询 产 

2. 语句 EXEC SQL 0PEN， 其 后 跟随 着 游标 的 名 称 。 这 个 语句 初始 化 游标 的 位 置 ， 使 游标 指 
向 其 覆盖 的 那个 关系 中 的 第 一 个 元 组 ， 并 从 那里 开始 检索 。 

3. 一 次 或 者 多 次 使 用 fetch 子 身 。fetch 子 名 的 目的 是 得 到 游标 覆盖 的 那个 关系 中 的 下 一 个 
元 组 。fetch 子 句 的 形式 如 下 : 

EXEC SQL FETCH FROM < 游标 名 称 》 INT0 < 变量 列表 > 

每 个 关系 元 组 的 属性 对 应 列表 里 的 一 个 变量 。 假 如 有 一 个 可 获取 的 元 组 ， 那 么 该 元 组 相 
应 的 分 量 将 赋值 给 对 应 的 变量 。 如 果 元 组 已 经 被 遍历 过 了 ， 那 么 不 会 返回 任何 元 组 ， 且 
SQLSTATE 被 赋值 为 “02000” ， 这 个 代码 表示 “没有 发 现任 何 元 组 ”。 

4. EXEC SQL CLOSE 子 句 ， 其 后 跟随 着 游标 的 名 称 。 这 条 语句 关闭 游标 ， 游 标 将 不 再 覆盖 关 
系 的 元 组 。 然 而 ， 游 标 可 以 由 另外 一 条 0PEN 语 句 重新 初始 化 ， 它 将 重新 覆盖 这 个 关系 的 元 组 。 

例 9.6 ”查询 满足 以 下 条 件 的 电影 出 品 人 的 个 数 ， 这 些 出 品 人 的 净 资 产 呈 指数 型 增长 ， 每 
一 个 数值 段 代 表 相 应 净 资 产 的 位 数 。 因 此 设计 了 一 个 查询 ， 该 查询 用 来 检索 所 有 MovieExec 元 
组 的 netWorth 字 段 ， 并 存 人 worth 共 享 变量 中 。 游 标 execCursor 将 覆盖 所 有 这 些 单 分 量 元 组 。 
每 取 一 个 元 组 时 ， 计 算 整 数 worth 的 位 数 ， 并 将 数组 counts 中 相应 元 素 加 1。 

C 函 数 worthRanges 开 始 于 图 9-8 的 第 (1) 行 。 第 (2) 行 声明 了 只 能 被 C 函 数 使 用 而 不 能 被 峰 
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套 SQL 使 用 的 变量 。 数 组 counts 保 存 了 出 品 人 数目 ，digits 计 算 净 资 产 的 位 数 ， 而 是 一 个 下 
标 ， 用 来 遍历 数组 counts 的 元 素 。 

第 (3) 到 第 (6) 行 是 SQL 的 声明 节 ， 声 明了 共享 变量 worth 和 通常 的 SQLSTATE。 第 (7) 行 和 第 
(8) 行 定义 了 游标 execCursor ， 该 游标 覆盖 了 由 第 (8) 行 的 查询 所 产生 的 值 。 这 个 查询 仅仅 要 求 
MovieExec 中 所 有 元 组 的 netWorth 字 段 。 游 标 在 第 (9) 行 打开 。 第 (10) 行 通过 数组 counts 清 零 
来 完成 初始 化 。 

主要 的 工作 由 第 (11) 到 第 (16) 行 的 循环 完成 。 在 第 (12) 行 ， 一 个 元 组 被 读 取 到 共享 变量 
worth 中 。 虽 然 一 般 说 来 ， 变 量 的 数目 和 被 检索 的 元 组 的 分 量 的 数目 一 样 ， 但 由 于 第 (8) 行 的 
查询 产生 的 元 组 只 有 一 个 分 量 ， 所 以 只 需 一 个 共享 变量 。 第 (13) 行 测试 提取 是 否 成 功 。 这 里 ， 
使 用 了 一 个 宏 NO_MORE_TUPLES， 其 定义 如 下 : 

#define NO_MDRE_TUPLES !(strcmp (SQLSTATE, "02000")) 

回忆 一 下 ,“02000” 是 一 个 SQLSTATE 代 码 ， 表 示 没 有 找到 元 组 。 这 样 ， 如 果 没 有 任何 元 
组 ， 就 中 断 循环 ， 跳 转 到 第 (17) 行 。 

如 果 提 取 了 一 个 元 组 ， 那 么 第 (14) 行 净 资 产 的 数字 位 数 被 初始 化 为 1。 第 (15) 行 是 一 个 
循环 ， 此 循环 重复 地 用 10 除 净 资 产 并 且 将 变量 digits 重 复 加 1。 当 净 资 产 被 10 除 为 零 时 ， 
digits 保 留 了 被 检索 过 的 worth 值 的 正确 位 数 。 最 后 ， 第 (16) 行 将 数组 counts 中 相应 元 素 加 
1。 这 里 假定 位 数 不 超 过 14。 然 而 ， 净 资产 有 15 或 者 更 多 的 数位 ， 可 是 第 (16) 行 对 数组 
counts 的 元 素 不 作 任 何 增加 ， 因 为 没有 对 应 的 范围 ， 也 就 是 说 ， 过 大 的 净 资 产 被 丢弃 但 并 
不 影响 统计 。 

第 (17) 行 开始 结束 函数 的 工作 。 首 先 关闭 游标 。 然 后 第 (18) 行 和 第 (19) 行 输出 数组 counts 
中 的 值 。 口 


1) void worthRanges() { 


2) int i, digits, counts[15]; 

3) EXEC SQL BEGIN DECLARE SECTION ; 

4) int worth; 

5) char SQLSTATE [6] ; 

6) EXEC SQL END DECLARE SECTION ; 

7) EXEC SQL DECLARE execCursor CURSOR FOR 
8) SELECT netWorth FROM MovieExec; 


9) EXEC SQL 0PEN execCursor; 
10) for(i=1; i<15; i++) counts[i] = 0; 
11) while(1) { 
12) EXEC SQL FETCH FROM execCursor INTO-:worth; 
13) if (NO_MORE_TUPLES) break; 
14) digits = 1; 
15) while((worth /= 10) > 0) digits++; 
16) if(digits <= 14) counts[digits]++; 
} 
17) EXEC SQL CLOSE execCursor; 
18) for(i=1; i<15; i++) 
19) printf ("digits = %d: number of execs = hd\n', 
i, counts[il]); 





图 9-8 分 组 出 品 人 净 资 产 呈现 指数 型 增长 
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9.3.7 游标 更 新 

当 游 标 人 遍历 一 个 基本 表 的 元 组 (也 就 是 说 ， 存 储 到 数据 库 中 的 关系 ) 时 ， 不 仅 可 以 读 和 
处 理 每 个 元 组 的 值 ， 而 且 可 以 修改 或 者 删除 当前 元 组 。UPDATES 和 DELETE 语 句 的 语法 除了 
WHERE 子 句 外 ， 和 6.5 节 中 的 一 样 。WMHERE 子 句 只 能 是 WHERE CURRENT 0F， 其 后 跟着 游标 的 名 
称 。 当 然 对 于 读 取 元 组 的 宿主 语言 而 言 ， 在 决定 删除 或 者 修改 这 个 元 组 之 前 ， 它 都 有 可 能 将 
任何 条 件 应 用 到 该 元 组 中 。 

例 9.7 ”图 9-9 中 C 函 数 将 查看 MovieExec 的 每 个 元 组 并 决定 是 删除 该 元 组 还 是 将 其 净 资 产 
翻 倍 。 第 (3) 行 和 第 (4) 行 定义 了 与 MovieExec 的 四 个 属性 相对 应 的 变量 ， 以 及 必需 的 SQLSTATE 。 
然后 ， 在 第 (6) 行 中 声明 的 execCursor 覆 盖 存 储 关 系 MovieExec 自 身 。 


1) void changeWorth() { 


EXEC SQL BEGIN DECLARE SECTION ; 

int certNo, worth,; 

char execName[31] ，execAddr [256] ，SQLSTATE [6] ; 
EXEC SQL END DECLARE SECTION ; 
EXEC SQL DECLARE execCursor CURSOR FOR MovieExec; 


EXEC SQL OPEN execCursor; 
While(1) { 
EXEC SQL FETCH FROM execCursor INT0 :execName ， 
:execAddr, :certNo, :worth; 
if (NO_MORE_TUPLES) break; 
if (worth < 1000) 
EXEC SQL DELETE FROM MovieExec 
WHERE CURRENT OF execCursor; 
else 
EXEC SQL UPDATE MovieExec 
SET netWorth = 2 * netWorth 
WHERE CURRENT OF execCursor; 


} 
EXEC SQL CLOSE execCursor; 





图 9-9 更 新 出 品 人 的 净 资 产 


第 (8) 到 第 (14) 行 是 循环 ， 循 环 中 游标 execCursor 依 次 指向 MovieExec 的 每 个 元 组 。 第 (9) 
行将 当前 元 组 提取 到 为 其 设置 的 四 个 变量 中 ， 要 注意 的 是 ， 实 际 只 用 到 了 worth。 第 (10) 行 测 
试 MovieExec 的 元 组 是 否 都 检索 过 了 。 这 里 再 次 使 用 了 宏 ON_MORE_TUPLES 作 为 变量 
SQLSTATE 所 包含 的 “02000” 代 码 的 条 件 ， 即 “没有 元 组 ”。 

第 (11) 行 查询 净 资 产 是 否 低 于 $1000。 如 果 是 ， 元 组 被 第 (12) 行 的 DELETE 语 句 删除。 注意 
涉及 游标 的 WHERE 子 句 ， 于 是 刚刚 提取 的 MovieExec 的 当前 元 组 被 从 MovieExec 中 删除 。 如 果 
净 资 产 至 少 是 $1000， 那 么 在 第 (14) 行 ， 同 一 个 元 组 中 的 净 资 产 被 翻 倍 。 口 


9.3.8 避免 并 发 修改 

假定 用 图 9-8 中 的 函数 worthRanges 检 查 电影 出 品 人 的 净 资 产 时 ， 某 个 其 他 的 进程 正在 修 
改 底层 的 MovieExec 关 系 。 对 于 这 种 可 能 性 应 该 做 些 什么 呢 ? 恶 怕 不 能 做 任何 事情 。 例 如 ， 人 
们 满意 于 近似 的 统计 ， 而 不 在 意 统 计时 该 出 品 人 的 数据 是 否 被 其 他 进程 删除 。 于 是 简单 地 接 
受 通过 游标 所 获取 到 的 元 组 。 
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可 是 ， 人 们 并 不 希望 游标 读 取 的 元 组 被 并 发 的 变化 所 影响 ， 而 是 强调 统计 是 针对 某 个 时 
刻 已 存在 的 关系 。 利 用 6.6 节 事务 处 理 中 的 术语 ， 我 们 要 让 那些 关系 上 运行 的 游标 的 代码 能 与 
该 关系 上 的 其 他 任何 操作 可 串 行 化 。 为 了 保证 这 一 点 ， 对 于 并 发 变化 可 以 将 游标 声明 为 对 并 
发 修改 不 敏感 (insensitive ) 。 

例 9.8 图 9-8 中 的 第 (7) 行 和 第 (8) 行 修改 成 如 下 形式 : 


?3 EXEC SQL DECLARE execCursor INSENSITIVE CURSOR FOR 

8) SELECT netWorth FROM MovieExec; 
这 样 声 明 的 execCursor 使 得 SQL 系统 将 保证 在 execCursor 打 开 和 关闭 之 间 对 关系 MovieExec 所 
作 的 变化 不 会 影响 提取 到 的 元 组 集合 。 问 


某 些 关 系 R 上 的 游标 可 以 确信 不 会 改变 R。 这 样 的 游标 可 以 与 R 的 不 敏感 游标 同时 运行 ， 
而 不 用 担心 会 改变 被 不 敏感 游标 读 到 的 关系 R。 如 果 游 标 声明 为 FOR READ ONLY， 那 么 数据 库 
系统 可 以 保证 基本 关系 不 会 因为 读 取 游标 而 修改 了 该 关系 。 

例 9.9 ”在 图 9-8 的 第 (8) 行 后 面 加 上 下 面 一 行 : 

FOR READ ONLY; 
这 样 ， 任 何 试图 通过 游标 execCursor 所 做 出 的 关系 修改 都 会 产生 错误 。 口 


9.3.9 动态 SQL 

目前 为 止 ， 舱 套 在 宿主 语言 中 的 SQL 模型 都 是 在 宿主 语言 程序 中 特定 的 SQL 查询 和 命令 。 
典 套 SQL 的 另 一 种 形式 是 自身 可 以 被 宿主 语言 处 理 的 语句 。 这 种 语句 编译 时 不 可 知 ， 因 此 ， 
不 能 被 SQL 预 处 理 器 和 宿主 语言 编译 器 处 理 。 

例如 这 种 情况 下 的 一 个 程序 ， 它 提示 用 户 输入 SQL 查询 ， 然 后 读 这 个 查询 ， 并 执行 这 个 
查询 。 第 6 章 中 假定 的 针对 这 种 特定 SQL 查询 的 基本 界面 就 是 这 样 的 一 个 程序 。 如 果 查 询 是 在 
运行 时 读 取 和 执行 ， 那 么 编译 时 什么 都 不 能 做 。 查 询 被 读 到 后 ， 将 立即 进行 语法 分 析 ， 并 且 
由 SQL 系统 寻找 适合 执行 该 查询 的 方式 。 

宿主 语言 程序 必须 指导 SQL 系统 接受 刚刚 读 到 的 字符 串 ， 并 将 字符 串 转 化 为 可 执行 的 
SQL 语句 ， 最 后 执行 这 条 语句 。 下 面 两 条 动态 SQL (Dynamic SQL) 语句 完成 这 两 步 工 作 。 

1. EXEC SQL PREPARE V FROM < 表达 式 >， 其 中 Y 是 SQL 变量 。 表 达 式 可 以 是 其 值 为 字符 
串 的 任意 一 条 宿主 语言 表达 式 ， 而 该 字符 串 被 当 作 SQL 语句 。 假 设 能 对 SQL 语句 进行 语法 分 
析 ， 且 由 SQL 系统 寻找 到 一 个 不 错 的 执行 该 语句 的 方案 ， 但 是 ， 语 名 并 没有 被 执行 。 而 且 ， 
执行 该 SQL 语句 的 计划 变 成 了 V 的 值 。 

2.EXEC SQL EXECUTE Y。 这 条 语句 引起 Y 所 代表 的 SQL 语句 的 执行 。 

上 述 两 步 可 以 用 下 面 的 语句 合 二 为 一 : 

EXEC SQL EXECUTE IMMEDIATE < 表达 式 > 
如 果 一 条 语句 被 编译 一 次 ， 然 后 执行 很 多 次 时 ， 就 会 看 到 合并 这 两 步 是 不 利 的 。 使 用 EXECUTE 
IMMEDIATE， 每 次 语句 执行 时 都 要 付出 准备 该 语句 的 代价 ， 而 不 是 只 付出 一 次 。 

例 9.10 ”图 9-10 是 一 个 C 程 序 。 该 程序 从 标准 输入 中 读 取 文 本 输送 到 一 个 变量 query 中 ， 
准备 并 执行 这 个 查询 。SQL 变 量 SQLquery 保 留 着 那些 准备 好 的 查询 。 既 然 查询 只 执行 一 次 ， 
那么 语句 : 

EXEC SQL EXECUTE IMMEDIATE :query; 

可 以 替代 图 9-10 中 的 第 (6) 行 和 第 (7) 行 。 [| 
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1) void readQuery() { 


2) EXEC SQL BEGIN DECLARE SECTION ; 
3) char *query; 
4) EXEC SQL END DECLARE SECTION; 


5) /* prompt user for a query, allocate space (e.g., 
use malloc) and make shared variable :query point 
to the first character of the query */ 

6) EXEC SQL PREPARE SQLquery FROM :query; 

7) EXEC SQL EXECUTE SQLquery; 





图 9-10 准备 并 执行 动态 SQL 查询 


9.3.10 习题 

习题 9.3.1 基于 习题 2.4.1 的 数据 库 模式 ， 写 出 下 列 竺 套 SQL 查 询 : 
Product (maker, model, type) 
PC(model, speed, ram, hd, price) 
Laptop(model, speed, ram, hd, screen, price) 
Printer(model, color, type, price) 


可 以 使 用 你 所 熟悉 的 任何 宿主 语言 ， 宿 主语 言 编程 的 细节 可 以 用 清楚 的 注释 代替 。 
a) 询问 用 户 一 个 价格 ， 找 出 与 这 个 价格 最 为 接近 的 PC。 输 出 该 PC 的 maker、mode1 number 和 Speed。 
b) 询问 用 户 能 接受 的 速度 、RAM、 硬 盘 大 小 和 显示 器 尺寸 的 最 小 值 。 找 出 满足 要 求 的 所 有 笔记 本 
电脑 (laptop)。 输 出 它们 的 说 明 (Laptop 的 所 有 属性 ) 和 它们 的 制造 商 。 
!c) 询问 用 户 一 个 制造 商 。 输 出 该 制造 商 的 所 有 产品 的 规格 ， 即 输出 型 号 、 产 品类 型 以 及 适合 这 个 类 
型 的 所 有 关系 的 属性 。 
!1d) 询问 用 户 的 “预算 ”(PC 和 打印 机 的 总 价格 ) 和 PC 机 的 最 小 速度 。 找 出 最 便宜 的 “系统 ”(PC 加 
上 打印 机 )， 使 其 在 预算 之 内 同时 满足 最 小 速度 ， 但 尽 可 能 使 打印 机 为 彩色 打印 机 。 输 出 所 选 系 
统 的 型 号 。 
e) 询问 用 户 制造 商 、 型 号 、 速 度 、RAM、 硬 盘 的 大 小 以 及 新 PC 的 价格 。 检 查 系统 中 是 否 有 这 种 型 
号 的 PC。 如 果 有 该 型 号 ， 输 出 一 个 敬告， 否则 将 信息 插入 到 表 Product 和 PC 中 。 
习题 9.3.2 基于 习题 2.4.3 的 数据 库 模式 ， 写 出 下 列 的 典 套 SQL 查询 : 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles(name, date) 

Dutcomes(ship, battle, result) 


a) 船 的 火力 大 约 与 火炮 的 数目 和 火炮 口径 立方 的 乘积 成 比例 。 找 出 具有 最 大 火力 的 类 别 。 

!b) 询问 用 户 战役 的 名 称 。 找 出 该 战役 中 涉及 的 舰 船 的 国家 。 输 出 沉船 最 多 的 国家 和 损坏 船只 最 多 的 
国家 。 

c) 询问 用 户 类 别 的 名 称 以 及 表 C1asses 中 元 组 所 要 求 的 其 他 信息 。 接 着 询问 那个 类 别 的 船只 名 字 和 
下 水 日 期 的 列表 。 但 是 用 户 给 出 的 第 一 个 名 字 不 必 是 类 别 的 名 字 。 将 收集 的 信息 插 人 到 Classes 
和 Ships 中 。 

!d) 检查 关系 Battles、0utcomes 和 Ships 中 那些 下 水 前 已 经 参战 的 舰 船 。 当 发 现 错误 时 ， 提 示 用 户 
并 提供 改变 下 水 日 期 和 战役 日 期 的 选项 ， 完 成 所 要 求 的 改变 。 
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9.4 存储 过 程 


本 节 介 绍 持久 性 存储 模块 (persistent，stored modules) (SQL/PSM 或 简写 为 PSM ) 。 
PSM 是 SQL 标 准 最 新 版 本 的 一 部 分 ， 被 称 为 SQL:2003。 它 允许 用 简单 通用 的 语言 编写 过 程 ， 
并 且 将 它们 存储 在 数据 库 中 ， 作 为 模式 的 一 部 分 。 然 后 可 以 用 这 些 包含 在 SQL 查 询 和 其 他 语 
句 中 的 过 程 来 执行 那些 不 能 用 SQL 单 独 完 成 的 处 理 。 每 个 商用 性 的 DBMS 均 向 用 户 提供 了 其 
自身 的 PSM 扩 展 。 本 书 将 描述 SQL/PSM 标 准 。 该 标准 表明 了 这 些 功能 的 主要 思想 ， 有 助 于 读 
者 理解 任何 与 特定 系统 相关 的 该 类 语言 。 参 考 目 录 里 给 出 了 许多 支持 PSM 扩 展 的 商用 系统 。 


9.4.1 创建 PSM 函 数 和 过 程 

PSM 中 定义 了 模块 (modules) ， 该 模块 是 如 下 内 容 的 集合 : 函数 和 过 程 定义 、 临 时 关系 
声明 和 其 他 可 选 声明 。 过 程 声明 的 要 素 如 下 : 

CREATE PROCEDURE 《<x 名字》 (< 参数 >) 

< 局 部 声明 > 
< 过 程 体 >; 
这 种 形式 与 许多 编程 语言 相似 : 它 由 过 程 名 、 用 圆 括 号 括 起 的 参数 列表 、 可 选 的 局 部 变量 声 
明和 定义 过 程 的 可 执行 的 代码 体 组 成 。 函 数 定义 基本 上 与 过 程 定义 的 方式 相同 ， 不 同 之 处 只 
是 使 用 的 是 保留 字 FUNCTION， 并 且 必 须 指定 返回 值 的 类 型 。 于 是 ， 函 数 定义 的 要 素 如 下 : 
CREATE FUNCTION < 名字 > (< 参数 >) RETURNS < 类 型 > 
< 局 部 声明 > 
< 函数 体 >， 

PSM 过 程 的 参数 是 模式 一 名 字 一 类 型 的 三 元 组 。 也 就 是 说 ， 不 仅 要 如 同 编程 语言 一 样 ， 在 
参数 名 后 跟随 参数 所 定义 的 类 型 ,而 且 要 加 一 个 “模式 ”前 级 。 该 前 级 要 么 是 IN， 要么 是 0UT， 
或 者 INOUT。 这 三 个 关键 字 分 别 表明 参数 是 仅 输入 的 、 仅 输出 的 或 者 既 可 输入 又 可 输出 的 。 缺 
省 前 组 是 IN， 可 以 省 略 。 

另 一 方面 ， 函 数 的 参数 只 可 以 是 IN 模 式 。 换 句 话 说 ，PSM 阻 止 了 函数 中 的 副作用 ， 所 以 
从 函数 中 得 到 信息 的 唯一 方式 是 通过 函数 的 返回 值 。 虽 然 在 过 程 定义 中 常常 指出 IN 模 式 ， 但 
是 在 函数 参数 中 将 不 指明 IN 模式 。 


例 9.11 虽然 还 没有 学 习 过 程 体 和 函数 体 的 各 种 CREATE PROCEDURE Movet 
语句 ， 但 SQL 语句 的 出 现 并 不 令 人 感到 意外 。 这 些 语 IN oldAddr VARCHAR(255), 
名 的 限制 和 9.3.4 节 介绍 的 嵌 套 SQL 是 一 样 的 ， 只 允许 网 
查询 进行 单元 组 选择 语句 和 基于 游标 的 访问 。 图 9-11 UPDATE MovieStar 
的 PSM 过 程 将 新 旧 两 个 地 址 作为 其 参数 ， 并 且 用 新 地 ed te me 
址 替换 MovieStar 中 每 一 个 旧地 址 。 WHERE address = oldAddr; 





第 (1) 行 引入 了 过 程 及 其 名 称 Move 。 第 (2) 行 和 第 图 9-11 改变 地 址 的 过 程 
(3) 行 声明 了 两 个 输入 参数 , 其 类 型 都 是 VARCHAR (255)。 
注意 ， 该 类 型 和 图 2-8 中 定义 MovieStar 的 属性 address 的 类 型 一 致 。 第 (4) 到 第 (6) 行 是 传统 的 
UPDATE 语 句 。 然 而 ， 参 数 名 可 以 被 当 作 常 量 使 用 。 宿 主 变量 在 SQL 中 使 用 时 必须 加 上 前 绥 冒 号 
(9.3.2 节 ) ， 但 是 PSM 过 程 和 函数 中 的 参数 或 别 的 局 部 变量 不 要 求 加 冒号 。 口 


9.4.2 PSM 中 的 简单 语句 格式 
先 来 看 一 下 一 些 容易 掌握 的 语句 格式 。 
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1. 调 用 语句 (call-statement): 过 程 调用 的 形式 

CALL “过程 名 > (< 参数 > ) ; 
也 就 是 说 ， 保 留 字 CALL 后 跟随 过 程 名 和 用 圆 括号 括 起 的 参数 表 ， 这 与 大 多 数 语言 一 样 。 可 是 ， 
这 种 调用 语句 在 不 同 的 地 方 使 用 不 同 的 形式 : 

i 例如， 在 宿主 语言 中 的 调用 形式 是 : 

EXEC SQL CALL Foo(:x, 3); 

ii. 作为 男 一 个 PSM 函 数 或 过 程 的 语句 。 

iii. 作为 发 送 给 基本 SQL 界面 的 SQL 命令 。 例 如 ， 可 以 把 语句 

CALL Foo(1, 3); 
发 送 给 该 界面 ， 并 且 分 别 用 1 和 3 作为 赋值 过 程 的 两 个 参数 ， 然 后 执行 存储 过 程 Foo。 

要 注意 的 是 ， 这 里 不 允许 调用 函数 。 在 PSM 中 调用 函数 和 在 C 中 一 样 : 使 用 函数 名 和 匹配 
的 参数 作为 表达 式 的 一 部 分 。 

2,; 返回 语句 (return-statement); 格式 如 下 : 

RETURN < 表达 式 》; 
该 语句 只 能 出 现在 函数 中 。 它 计算 表达 式 的 值 ， 并 将 函数 的 返回 值 设置 为 该 计算 结果 。 然 而 ， 
和 普通 编程 语言 不 同 的 是 ，PSM 的 返回 语句 不 结束 这 个 函数 。 甚 至 ， 它 将 继续 控制 后 面 的 语 
句 ， 而 且 在 函数 完成 之 前 返回 值 都 可 能 会 改变 。 

3. 局 部 变量 声明 (declarations of local variable) ， 语句 格式 为 

DECLARE 《名 字 > 《类 型 >， 
用 给 定 的 类 型 声明 给 定名 称 的 变量 。 这 个 变量 是 局 部 的 ， 在 函数 或 者 过 程 运行 后 ，DBMS 不 
再 保存 其 值 。 函 数 或 过 程 体 中 的 声明 必须 在 可 执行 语句 之 前 。 

4. 赋值 语句 (assignment statement); 格式 如 下 :; 

SET 《变量 > =《 表 达 式 >， 

除了 引导 保留 字 SET 外 ，PSM 中 的 赋值 和 别 的 语言 完全 相似 。 计 算 等 号 右边 的 表达 式 ， 它 的 
值 将 成 为 左边 变量 的 值 。 表 达 式 可 以 是 NULL， 甚 至 可 以 是 查询 ， 只 要 该 查询 是 返回 一 个 单 值 。 

5. 语 身 组 《statement group) : 语句 组 以 分 号 结束 ， 并 置 于 保留 字 BEGIN 和 END 之 间 。 这 种 构造 
被 当 作 单 个 语句 ， 可 以 出 现在 任何 单个 语句 可 以 出 现 的 地 方 。 特 别 是 ， 由 于 过 程 或 函数 体 相当 
于 单个 语句 ， 所 以 在 过 程 和 函数 体 中 可 插入 任何 语句 序列 ， 只 要 它们 被 置 于 BEGIN 和 END 之 间 。 

6. 语 名 标号 (statement label) : 用 名 字 (标号 名 ) 和 冒号 作为 前 组 来 标识 语句 。 


9.4.3 分 支 语 句 
复杂 的 PSM 语 句 类 型 中 ， 先 考虑 if 语 句 。 其 形式 有 点 奇怪 ， rp 
中 i 五 寺 的 不 同 县 . <condition> THEN 
与 C 和 其 他 类 似 语言 的 不 同 是 : htm tis 
1. 用 保留 字 END IF 结 束 。 ELSEIF <condition> THEN 
2. 稚 套 在 if 语句 中 的 else 子 名 以 单词 ELSEIF 开 始 。 SR 


ELSEIF 


因此 ，if 语 名 的 一 般 格 式 如 图 9-12 所 示 。 如 同 SQL 语 句 的 J 
WHERE 子 句 一 样 ， 条 件 可 以 是 任何 布尔 类 型 的 表达 式 。 语 句 列表 由 ELSE | 
以 分 号 结束 的 语句 构成 ， 但 不 必 置 于 BEGIN ... END 之 间 。 最 后 的 Bo list> 
ELSE 和 它 的 语句 是 可 选项 。 也 就 是 说 ， 可 以 只 有 IF... THEN ... 
END IF， 也 可 以 带 有 ELSEIF 。 图 9-12 if 语 句 的 格式 
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例 9.12 ”编写 一 个 关于 年 份 y 和 电影 公司 * 的 函数 ， 它 返回 一 个 布尔 值 ， 其 值 为 TRUE 当 且 仅 当 
电影 公司 s 在 第 > 年 至 少 制作 了 一 部 喜剧 电影 ， 或 者 在 那 一 年 没有 制作 任何 电影 。 其 代码 见 图 9-13。 


1) CREATE FUNCTION BandW(y INT, s CHAR(15)) RETURNS BOOLEAN 


2) IF NOT EXISTS( 

3) SELECT * FROM Movies WHERE year = 了 AND 
studioName = 3) 

4) THEN RETURN TRUE; 

5) ELSEIF 1 “= 

6) (SELECT COUNT(*) FROM Movies WHERE year = 了 AND 
studioName = s AND genre = ’comedy’) 

7) THEN RETURN TRUE ; 

8) ELSE RETURN FALSE; 

9) END IF; 





图 9-13 如 果 制 作 了 电影 ， 则 至 少 有 一 部 是 喜剧 电影 


第 (1) 行 引入 了 函数 和 它 的 参数 。 参 数 模式 不 必 指 定 ， 因 为 对 于 函数 只 能 是 IN 模 式 。 第 (2) 
行 和 第 (3) 行 判断 电影 公司 s 在 第 年 是 否 没有 制作 任何 电影 ， 如 果 是 ， 则 第 (4) 行 返回 值 赋 为 
TRUE。 注 意 第 (4) 行 并 没有 使 函数 返回 。 从 技术 上 讲 ， 是 由 if 语 句 规定 的 控制 流 引 起 了 从 第 (4) 
行 到 第 (9) 行 的 跳 转 ， 在 第 (9) 行 函数 完成 并 返回 。 

如 果 电 影 公司 * 在 第 > 年 制作 了 电影 ， 那 么 第 (5) 行 和 第 (6) 行 测试 是 否 至 少 有 一 部 电影 是 喜 
剧 电影 。 如 果 是 的 话 ， 返 回 值 在 第 (7) 行 再 次 被 置 为 真 。 其 余 情 况 下 ， 电 影 公 司 * 制 作 的 都 不 是 
喜剧 电影 ， 则 第 (8) 行 返回 值 被 置 为 FALSE。 口 


9.4.4 PSM 中 的 查询 

PSM 中 有 多 种 select-from-where 的 查询 方式 : 

1. 子 查询 可 用 于 条 件 语句 中 ， 或 者 一 般 而 言 ， 在 SQL 中 任何 地 方 使 用 子 查询 都 是 合法 的 。 
例如 ， 图 9-13 中 第 (3) 行 和 第 (6) 行 的 子 查询 。 

2. 返回 单一 值 的 查询 可 用 在 赋值 语句 的 右边 。 

3. PSM 中 单元 组 选择 语句 是 合法 语句 。 回 忆 含有 INT0 子 句 的 语句 ，INT0 子 句 将 变量 赋值 
为 单个 返回 元 组 的 分 量 。 这 些 变量 可 以 是 局 部 变量 或 PSM 过 程 的 参数 。 它 的 一 般 形式 曾 在 
9.3.5 节 的 典 套 SQL 内 容 中 讨论 过 。 


CREATE PROCEDURE SomeProc(IN studioName CHAR(15)) 


DECLARE PresNetWorth INTEGER; 2 


SELECT netWorth 

INTO presNetWorth 

FROM Studio, MovieExec 

WHERE presC# = cert# AND Studio ,name = studioName; 





图 9-14 PSM 中 的 单元 组 选择 


4. 声明 和 使 用 游标 ， 本 质 上 和 9.3.6 节 舱 套 SQL 的 描述 差不多 。 游 标的 声明 及 0PEN、FETCH 
和 CLOSE 语句 等 都 和 那里 描述 的 一 样 ， 但 是 下 面 几 点 是 不 同 的 : 
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a) 语句 中 不 出 现 EXEC SQL。 

b) 局 部 变量 不 使 用 冒号 前 级 。 

例 9.13 ”图 9-14 是 用 PSM 重 新 编写 了 一 次 图 9-7 所 示 的 单元 组 选择 ， 并 且 是 置 于 假设 的 过 程 
定义 中 。 注 意 ， 因 为 单元 组 选择 只 返回 一 个 分 量 的 元 组 ， 故 下 面 的 赋值 语句 可 以 有 同样 的 作用 : 

SET presNetWorth = (SELECT netWorth 


FROM Studio, MovieExec 
WHERE presC# = cert# AND Studio.name = studioName); 


使 用 游标 的 例子 将 被 延迟 到 下 一 节 学 习 了 PSM 循 环 语句 之 后 。 口 


9.4.5 PSM 中 的 循环 
PSM 中 的 基本 循环 结构 如 下 : 
LOOP 
《语句 列表 > 

END LOOP , 

LO0P 语 句 常常 被 标识 出 来 ， 所 以 可 能 使 用 下 面 的 语句 中 断 循环 ， 

LEAVE “循环 标识 >， 

通常 情况 下 ， 循 环 涉及 用 游标 读 取 元 组 ， 当 没有 更 多 的 元 组 时 ， 就 希望 离开 这 个 循环 。 
对 于 表示 没有 找到 元 组 的 SQLSTATE 值 (回忆 一 下 ,是 “02000')， 可 以 定义 一 个 条 件 
(condition) 名 。 其 方法 是 用 如 下 语句 : 

DECLARE Not_Found CONDITION FOR SQLSTATE ’02000’?; 

更 一 般 地 ， 可 以 用 如 下 语句 声明 表示 任何 希望 与 5QLSTATE 值 相对 应 的 标识 作为 条 件 : 

DECLARE “名 字 > CONDITION FOR SQLSTATE < 值 >; 

下 面 研究 一 个 在 PSM 中 混合 使 用 游标 操作 和 循环 的 例子 。 

例 9.14 ”图 9-15 显 示 了 一 个 PSM 过 程 ， 该 过 程 将 电影 公司 名 称 ;作为 输入 参数 ， 并 且 用 输 
出 参数 mean 和 variance 给 出 电影 公司 s 拥 有 的 所 有 电影 长 度 的 平均 值 和 方差 。 第 (1) 到 第 (4) 行 
声明 了 该 过 程 和 参数 。 

第 (5) 到 第 (8) 行 是 局 部 声明 。 定 义 Not_Found 作 为 条 件 的 名 称 ， 该 条 件 表 示 FETCH 在 第 (5) 
行 返回 元 组 失败 。 接 着 ， 在 第 (6) 行 ， 游 标 MovieCursor 被 定义 为 返回 电影 公司 制作 的 电影 的 
长 度 集合 。 第 (7) 行 和 第 (8) 行 声明 了 所 需 的 两 个 局 部 变量 。 整 数 newLength 保 存 了 FETCH 的 结果 ， 
而 movieCount 计 数 电影 公司 s 制 作 的 电影 的 数目 。 之 所 以 需要 movieCount ， 是 在 最 后 能 够 将 
长 度 的 和 转变 为 长 度 的 平均 值 ， 将 长 度 的 平方 和 转化 为 方差 。 

图 中 其 余 行 是 过 程 体 。mean 和 variance 为 临时 变量 ， 也 可 作为 最 后 的 “返回 ”结果 。 在 
主 循环 中 ，mean 实 际 保存 长 度 的 和 ，variance 实 际 保存 长 度 的 平方 和 。 因 此 ， 第 (9) 到 第 (11) 
行 初始 化 这 些 变量 和 电影 的 数目 为 0。 第 (12) 行 打开 游标 ， 第 (13) 到 第 (19) 行 形成 了 标识 为 
movieLoop 的 循环 。 

第 (14) 行 执行 读 取 元 组 ， 第 (15) 行 检查 是 否 找到 了 另 一 个 元 组 。 如 果 不 是 ， 结 束 循环 。 第 
(15) 到 第 (18) 行 计算 值 ， 将 MovieCount 加 1， 并 且 把 长 度 加 到 mean 上 (这 里 mean 实 际 是 计算 长 
度 和 )， 将 长 度 的 平方 加 到 variance。 

当 电 影 公司 s 的 所 有 电影 被 检索 过 后 ， 循 环 结束 ， 转 到 第 (20) 行 。 在 第 (20) 行 ， 用 电影 总 
的 长 度 和 除 以 电影 的 数目 得 到 mean 的 正确 值 。 第 (21) 行 ; 电影 长 度 的 平方 和 除 以 电影 的 数目 ， 
再 减 去 mean 的 平方 ， 使 variance 得 到 真正 的 方差 。 参 见习 题 9.4.4 关 于 为 什么 这 么 计算 是 正确 
的 讨论 。 第 (22) 行 关闭 游标 ， 过 程 结束 。 口 
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CREATE PROCEDURE MeanVar( 
IN s CHAR(15) ， 
OUT mean REAL, 
0UT variance REAL 


) 
DECLARE Not_Found CONDITION FOR SQLSTATE ”02000 ?7 ; 
DECLARE MovieCursor CURSOR FOR 

SELECT length FROM Movies WHERE studioName = s; 
DECLARE newLength INTEGER; 
DECLARE movieCount INTEGER; 


BEGIN 
SET mean = 0.0; 
SET variance = 0.0; 
SET movieCount = 0; 
OPEN MovieCursor; 
movieLoop: LOOP 
FETCH FROM MovieCursor INT0 newLength; 
IF Not_Found THEN LEAVE movieLoop END IF; 
SET movieCount = movieCount + 1; 
SET mean = mean + newLength; 
SET variance = variance + newLength * newLength; 
END LOOP; 
SET mean = mean/movieCount; 
SET variance = variance/movieCount - mean * mean; 
CLOSE MovieCursor; 





图 9-15 某 电影 公司 制作 的 影片 长 度 的 平均 值 和 方差 


9.4.6 for 循环 
PSM 中 也 有 for 循 环 结构 ， 不 过 它 的 作用 仅仅 是 游标 的 友 代 。 其 语句 形式 如 图 9-16 所 示 。 
该 语句 不 但 声明 了 游标 ， 而 且 处 理 了 许多 FOR <loop name> AS <cursor name> CURSOR FOR 
麻烦 的 细节 ”: 打开 和 关闭 游标 、 取 值 、 了 
检测 是 否 没 有 元 组 可 以 获取 和 等。 但是， 因 DO 
为 不 是 直接 获取 自己 的 元 组 ， 所 以 不 能 为 。 | gyn wt> 
那些 被 替代 的 元 组 分 量 指定 存储 变量 。 这 





> 查询 结果 的 属性 名 也 交 由 PSM 作 为 相 图 9-16 PSM 中 的 for 循 环 语句 
同类 型 的 局 部 变量 处 理 。 


例 9.15 使 用 for 循 环 重新 编写 图 9-15 的 过 程 。 代 码 见 图 9-17。 很 多 事情 没有 变化 。 图 9-17 
中 第 (1) 到 第 (4) 行 的 过 程 声明 不 变 ， 第 (5) 行 中 局 部 变量 movieCount 的 声明 也 一 样 。 
其 他 的 循环 结构 
PSM 中 也 有 while 和 repeat 循 环 ， 其 含义 与 C 相 同 。 也 就 是 说 ， 可 以 创建 如 下 形式 的 循环 ， 


WHILE < 条 件 > D0 
< 语句 列表 > 


END WHILE; 


或 者 这 种 形式 的 循环 : 
REPEAT 
《语句 列表 > 
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UNTIL 《条 件 > 

END REPEAT， 

顺便 提 及 ， 如 果 要 标识 这 些 循环 ， 包 括 由 loop 语 名 或 for 语 名 形成 的 循环 ， 可 以 把 标识 
置 于 END L00P 或 其 他 标识 符 之 后 。 这 样 做 的 优点 是 使 循环 结束 的 位 置 更 清楚 ， 合 PSM 解释 
器 能 检测 包括 忽略 了 END 的 语法 错误 。 


1) CREATE PROCEDURE MeanVar( 
2) IN s CHAR(15), 
3) 0UT mean REAL ， 
4) 0UT variance REAL 
) 
5) DECLARE movieCount INTEGER; 


BEGIN 
6) SET mean = 0.0; 
7) SET variance = 0.0; 
8) SET movieCount = 0; 
9) FOR movieLoop AS MovieCursor CURSOR FOR 
SELECT length FROM Movies WHERE studioName = s; 

DO 
11) SET movieCount = movieCount + 1; 
12) SET mean = mean + length; 
13) SET variance = variance + length * length; 
14) END FOR; 

SET mean = mean/movieCount; 

SET variance = variance/movieCount - mean * mean; 





图 9-17 用 for 循 环 计算 长 度 的 均值 和 方差 


然而 ， 在 过 程 的 声明 部 分 中 不 必 声 明 游标 ， 也 不 必定 义 条 件 Not_Found。 第 (6) 到 第 (8) 行 
像 前 面 一 样 初始 化 这 些 变量 。 接 着 ， 第 (9) 行 的 for 循 环 定义 了 游标 MovieCursor。 第 (11) 到 第 
(13) 行 是 循环 体 。 注 意 ， 在 第 (12) 行 和 第 (13) 行 ， 通 过 游标 检索 的 长 度 是 用 属性 名 1ength 来 引 
用 ， 而 不 是 用 局 部 变量 newLength (在 过 程 编程 中 该 变量 不 存在 )。 第 (15) 行 和 第 (16) 行 计算 输 
出 变量 正确 的 值 ， 这 与 前 一 个 版 本 相同 。 口 


9.4.7 PSM 中 的 异常 处 理 

SQL 系统 通过 在 长 为 5 个 字符 的 字符 串 SQLATATE 变 量 中 设置 非 零 数字 序列 来 表明 错误 条 
件 。 前 面 已 经 看 到 这 些 代 码 中 的 一 个 :“02000” 表 示 “ 没 有 找到 元 组 。 另 外 ， 21000” 表 示 
单元 组 选择 返回 了 多 个 元 组 。 

PSM 可 以 声明 叫做 异常 处 理 (exception handler) 的 代码 。 也 就 是 说 ， 在 语句 或 语句 组 执 
行 过程 中 ， 当 错误 代码 列表 中 的 任何 一 个 出 现在 SQLSTATE 中 时 ， 就 调用 异常 处 理 。 每 一 个 异 
常 处 理 都 和 一 个 由 BEGIN. . .END 描 述 的 代码 块 有 关 。 处 理 过 程 出 现在 代码 块 中 ， 并 且 仅 仅 只 用 
于 代码 块 中 的 语句 。 

异常 处 理 的 组 成 是 : 

1. 一 组 异常 条 件 ， 当 这 些 条 件 成 立时 调用 异常 处 理 。 

2. 当 异 常 发 生 时 ， 与 该 异常 相关 联 的 执行 代码 。 
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3. 指明 处 理 器 完成 处 理 后 的 转移 去 处 。 

异常 处 理 的 声明 形式 如 下 : 

DECLARE < 下 一 步 到 哪里 > HANDLER FOR < 条 件 列表 > 

< 语句 > 

转移 有 如 下 儿 种 选择 方式 : 

a) CONTINUE， 表 示 执 行 异 常 处 理 声 明 中 的 语句 之 后 ， 继 续 执 行 产 生 异 常 的 语句 之 后 的 那 
条 语句 。 

b) EXIT， 表 示 执 行 异 常 处 理 语句 后 ， 控 制 离开 声明 异常 处 理 的 BEGIN.. .END 块 。 下 一 步 
执行 该 代码 块 之 后 的 语句 。 

c) UND0， 与 EXIT 差 不 多 ， 只 是 有 一 点 不 同 ， 即 到 目前 为 止 ， 已 执行 的 该 块 语句 对 数据 库 
或 局 部 变量 产生 的 变化 都 被 撤消 。 也 就 是 说 ， 块 是 事务 ， 因 此 它 会 由 于 异常 而 被 撤消 。 


for 循 环 中 为 什么 需要 命名 
注意 movieLoop 和 MovieCursor， 它 们 虽然 在 图 9-17 的 第 (9) 行 被 声明 ， 却 从 未 在 这 个 过 


程 中 使 用 过 。 但 是 ， 仍 然 不 得 不 为 for 循 环 本 身 和 用 来 迭代 的 游标 起 名 。 原 因 是 PSM 解 释 程 
序 将 for 循 环 解释 为 一 个 普通 的 循环 ， 就 像 图 9-15 中 的 代码 ， 该 代码 中 需要 这 两 个 名 字 。 


“条 件 列表 ”是 由 逗号 分 隔 的 条 件 的 列表 ， 可 以 是 图 9-15 第 (5) 行 中 Not_Found 之 类 被 声明 
的 条 件 ， 也 可 以 是 SQLSTATE 和 5 位 字符 串 的 表达 式 。 

例 9.16 编写 一 个 PSM 函 数 ， 以 电影 片 名 作为 参数 ， 返 回电 影 的 年 份 。 如 果 该 片 名 的 电 
影 不 存在 或 是 不 止 一 个 的 话 ， 则 返回 NULL。 代 码 见 图 9-18。 





CREATE FUNCTION GetYear(t VARCHAR(255)) RETURNS INTEGER 


DECLARE Not_Found CONDITION FOR SQLSTATE :02000，; 
DECLARE Too_Many CONDITION FOR SQLSTATE ’21000’; 


BEGIN 
DECLARE EXIT HANDLER FOR Not_Found, Too_Many 
RETURN NULL; 
RETURN (SELECT year FROM Movies WHERE title = t); 
END; 





图 9-18 单元 组 选择 返回 不 止 一 个 元 组 情况 下 的 异常 处 理 


第 (2) 行 和 第 (3) 行 声明 了 符号 条 件 ; 这些 定 义 不 是 必须 要 写 的 ， 也 可 以 使 用 第 (4) 行 所 代表 
的 SQL 状态 。 第 (4)、(5)、(6) 行 是 一 个 代码 块 ， 块 中 首先 为 两 个 条 件 声 明了 异常 处 理 : 它们 是 
返回 零 个 元 组 的 条 件 和 返回 多 于 一 个 元 组 的 条 件 。 第 (5) 行 是 异常 处 理 动 作 ， 它 仅仅 是 把 返回 
值 置 为 NULL。 

第 (6) 行 语句 做 了 函数 GetYear 的 工作 。 它 是 希望 正好 返回 一 个 整数 的 SELECT 语句 ， 该 整数 
亦 是 函数 GetYear 要 返回 的 值 。 如 果 对 于 片 名 t (函数 的 输入 参数 ) 恰 好 只 有 一 部 电影 ， 那 么 就 
返回 这 个 值 。 然 而 ， 如 果 第 (6) 行 出 现 了 异常 ， 即 要 么 因为 与 片 名 1 对 应 的 元 组 没有 ， 要 么 因为 
对 应 的 元 组 不 止 一 个 ， 那 么 调用 异常 处 理 ， 且 返回 值 NULL。 同 样 ， 因 为 处 理 是 EXIT 类 型 ， 故 流 
程 的 下 一 步 跳 到 END 之 后 。 该 处 是 函数 的 结束 处 ， 此 刻 GetYear 结 束 ， 返 回 NULL 值 。 口 
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9.4.8 使 用 PSM 函 数 和 过 程 

如 9.4.2 节 提 到 的 ， 在 嵌 套 的 SQL 程序 、PSM 代 码 本 身 或 提供 给 基本 界面 的 普通 SQL 命令 
中 都 可 以 调用 PSM 函 数 和 过 程 。 我 们 用 保留 字 CALL 作 为 前 缀 来 调用 过 程 。 另 外 ， 函 数 作 为 表 
达 式 的 一 部 分 出 现 ， 例 如 WHERE 子 句 。 下 面 给 出 一 个 在 表达 式 中 使 用 函数 的 例子 。 

例 9.17 ”假定 模式 中 包括 了 有 具有 图 9-18 中 GetYear 函 数 的 模块 。 想 象 面 对 基 本 界面 ， 准 备 
输入 Denzel Washington 是 Remember the Titans 中 的 影星 这 个 事实 。 可 是 ， 却 忘记 了 电影 的 年 
份 。 然 而 ， 只 要 这 个 名 称 的 电影 只 有 一 部 ， 并 且 它 就 在 关系 Movies 中 ， 那 么 ， 就 不 必 通 过 预 
先 查 询 去 找 出 该 年 份 。 而 且 ， 可 以 将 下 面 的 语句 插入 到 基本 SQL 界面 中 : 

INSERT INT0 StarsIn(movieTitle，movieYear ，starName) 

VALUES(’Remember the Titans’, GetYear(’Remember the Titans’), 

’Denzel Washington’); 

因为 如 果 有 具有 Remember the Titans 名 称 的 电影 不 是 一 部 时 ，GetYear 将 返回 NULL， 所 以 有 

可 能 会 使 元 组 中 间 分 量 中 的 插入 值 是 NULL。 口 


9.4.9 习题 

习题 9.4.1 在 电影 数据 库 上 用 PSM 过 程 或 函数 完成 下 列 任务 : 
Movies(title, year, length, genre, studioName, producerC#) 
StarsIn(movieTitle, movieYear, starName) 
MovieStar (name, address, gender, birthdate) 
MovieExec(name, address, cert#, netWorth) 
Studio(name, address, presC#) 


a) 给 定 电影 公司 的 名 称 ， 计 算 其 制 片 经 理 的 净 产 值 。 

b) 给 定名 称 和 地 址 ， 如 果 这 个 人 是 影星 而 不 是 出 品 人 ， 返 回 1，;， 如 果 是 出 品 人 而 不 是 影星 ， 则 返回 
2; 如 果 既 是 影星 又 是 出 品 人 ， 返 回 3; 如 果 既 不 是 影星 又 不 是 出 品 人 ， 返 回 4。 

!c) 给 定 电影 公司 名 称 ， 将 该 电影 公司 的 两 部 最 长 的 电影 片 名 作为 参数 输出 。 如 果 没 有 这 样 的 电影 
则 参数 中 的 一 个 或 两 个 被 赋值 为 NULL (例如 ， 如 果 电 影 公司 只 有 一 部 电影 ， 则 没有 “第 二 长 的 ” 
电影 )。 

!d) 给 定 一 个 影星 的 名 字 ， 找 出 由 他 出 演 的 时 间 超 过 120 分 钟 的 最 早 (年 份 小 的 ) 的 电影 。 如 果 没 
这 样 的 电影 ， 则 返回 年 份 0。 

e) 给 定 地 址 ， 如 果 该 地 址 居住 的 影星 恰好 只 有 一 个 时 ， 找 出 这 唯一 的 影星 的 名 字 ， 如 果 找 到 的 影星 
不 止 一 个 或 没有 找到 ， 则 返回 NULL。 

f) 给 定 影星 名 字 ， 将 其 从 MovieStar 中 删除 ， 并 从 StarsIn 和 NMovies 中 删除 他 们 所 演出 的 所 有 电影 。 

习题 9.4.2 根据 习题 2.4.1 中 的 数据 库 模式 ， 写 出 下 列 的 PSM 过 程 或 函数 。 

Product (maker, model, type) 

PC(model, speed, ram, hd, price) 

Laptop(model, speed, ram, hd, screen, price) 

Printer(model, color, type, price) 

a) 将 价格 作为 参数 ， 返 回 与 该 价格 最 接近 的 PC 的 型 号 。 

b) 将 制造 商 和 型 号 作为 参数 ， 返 回 这 种 型 号 的 任何 类 型 的 产品 的 价格 。 

!c) 将 型 号 、 速 度 、ram、 硬 盘 和 价格 信息 作为 参数 ， 将 该 信息 插入 到 关系 PC 中 。 然 而 ， 如 果 已 经 有 
这 种 型 号 的 PC (假定 插入 的 键 约束 被 违反 产生 异常 ， 这 时 SQLSTATE 为 ”23000' )， 那 么 将 该 型 
号 加 1 直到 找到 一 个 不 存在 的 PC 型 号 。 

!d) 给 定价 格 ， 输 出 超过 这 个 价格 卖 出 的 PC 的 数目 、 手 提 电 脑 的 数目 和 打印 机 的 数目 。 
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习题 9.4.3 根据 习题 2.4.3 的 数据 库 模 式 ， 写 出 下 列 PSM 函 数 或 过 程 。 


Classes(class, type, country, numGuns, bore, displacement) 
Ships(name, class, launched) 

Battles (name, date) 

Dutcomes(ship, battle, result) 


a) 船 的 火力 大 约 与 火炮 的 数目 与 火炮 口径 的 立方 的 乘积 成 正比 。 给 定 一 个 类 别 ， 求 出 它 的 火力 。 

!b) 给 定 战役 的 名 称 ， 输 出 该 战役 所 涉及 的 船只 所 属 的 两 个 国家 。 如 果 所 涉及 的 国家 多 于 或 少 于 两 个 ， 
则 输出 时 两 个 国家 都 为 NULL。 

c) 将 新 的 类 别名 称 、 类 型 、 国 家 、 火 炮 的 数目 ， 口 径 和 排水 量 等 作为 参数 。 将 这 些 信 息 插 入 到 
Classes， 而且 将 带 有 这 个 类 别名 称 的 船 加 入 到 Ships 中 。 

!d) 给 定 船 的 名 字 ， 判 断 该 船 参与 的 战役 的 日期 是 否 比 船 下 水 的 日 期 旱 。 如 果 这 样 ， 战 役 的 日 期 和 船 
下 水 的 日 期 都 置 为 0。 

! 习 题 9.4.4 在 图 9-15 中 ， 使 用 一 个 巧妙 的 公式 来 计算 数字 序列 fy, xz, …,x 的 方差 。 方 差 是 这 些 数字 与 


区 平均 人 之 差 的 平方 青 取 均 情 。 即 广 关 是 闪 C6 - 习 Mn ， 这 里 平均 值 是 | 袜 s ] /。 。 证 明 图 9.15 


中 使 用 的 方差 公式 
EA 


输出 相同 的 结果 。 
9.5 使 用 调用 层 接口 


使 用 调用 层 接 口 (call-level interface，CLI) 时 ， 只 需 编写 普通 的 宿主 语言 代码 ， 并 使 用 
可 连接 和 访问 数据 库 的 函数 库 ， 从 而 将 SQL 语句 传递 到 那个 数据 库 。 这 种 方法 和 骨 套 SQL 编 
程 的 区 别 在 某 种 程度 上 说 是 表面 上 的 ， 因 为 预 处 理 器 是 通过 调用 那些 类 似 于 标准 SQL/CLI 国 
数 的 库 函 数 替换 了 骸 套 的 SQL 语句 。 

这 里 将 给 出 三 个 调用 层 接口 的 例子 。 本 节 考 虑 标准 SQL/CLI， 它 是 ODBC (开放 数据 库 连 
接 ) 的 变型 。 还 将 讨论 JDBC， 它 是 一 些 类 的 集合 ， 这 些 类 支持 Java 程 序 访问 数据 库 。 接 着 ， 
会 引入 PHP， 它 是 在 HTML 形 式 的 网 页 中 访问 仍 入 式 数 据 库 的 方法 。 


9.5.1 SQL/CLI 简 介 

用 C 和 SQL/CLI (以 后 只 写 CLI) 编写 的 程序 包括 头 文件 Sql1c1i.h， 从 而 得 到 大 量 的 函数 、 
类 型 定义 、 结 构 和 符号 常量 。 这 样 程序 能 够 创建 和 处 理 四 种 记录 (C 中 称 作 结构 ) : 

1. 环境 记录 (environment) 。 这 种 类 型 的 记录 由 应 用 (客户 ) 程序 创建 ， 为 与 数据 库 服务 
器 的 一 个 或 多 个 连接 做 准备 。 号 渤 

2. 连接 记录 (connection)。 这 种 记录 创建 的 目的 是 连接 应 用 程序 和 数据 库 。 每 个 连接 记 
录 要 存在 于 某 个 环境 记录 中 。 

3. 语 身 记录 (statement)。 应 用 程序 可 以 创建 一 个 或 多 个 语句 记录 。 每 个 语句 记录 保存 了 
单条 SQL 语 名 的 信息 ， 如 果 是 查询 语句 则 还 包括 隐 含 的 游标 。 不 同时 刻 ， 同 一 个 CLI 语 句 代 表 
不 同 的 SQL 语句 。 每 条 CLI 语 句 存在 于 某 一 连接 记录 中 。 

4. 描述 记录 (description)。 这 种 记录 保存 元 组 或 参数 的 信息 。 应 用 程序 或 数据 库 服 务 器 
适当 地 设置 记录 描述 的 组 成 成 分 ， 以 指定 属性 或 属性 值 的 名 称 和 类 型 。 每 条 语句 都 有 一 些 隐 
式 创建 的 描述 记录 ， 用 户 需要 时 可 创建 更 多 。 在 CLI 的 表示 中 ， 描 述 记 录 一 般 都 是 不 可 见 的 。 

每 个 记录 在 应 用 程序 中 是 用 向 柄 (handle) 来 表示 ， 和 句柄 是 记录 的 指针 。 头 文件 
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sqlc1i.h 分 别提 供 了 环境 记录 、 连 接 记 录 、 语 名 记录 和 描述 记录 的 句柄 类 型 : SQLHENV.、 
SQLHDBC、DQLHSTMT 和 SQLHDESC， 但 它们 都 被 看 作 是 指针 或 整 型 。 除 了 使 用 这 些 类 型 外 ， 男 
外 还 使 用 其 他 有 明显 含义 的 定义 类 型 ， 如 sq1c1i.h 中 提供 的 SQLCHAR 和 SQLINTEGER。 

在 此 不 详细 地 讨论 如 何 设置 和 使 用 描述 记录 。 然 而 ， 其 他 三 种 记录 的 句柄 是 用 如 下 语句 创建 ， 

SQLAllocHandle(hType, hIn, hOvut) 

这 里 三 个 参数 的 含义 是 : 

1. hn7ype 是 所 希望 的 句柄 类 型 。SQL_HANDLE_ENV 表 示 一 个 新 的 环境 ，SQL_HANDLE_DBC 表 
示 一 个 新 的 连接 ，SWL_HANDLE_STMT 表 示 一 个 新 的 语句 。 

2. hIn 是 高 层 元 素 的 句柄 ,该 高 层 元 素 存放 了 新 近 分 配 的 元 素 。 如 果 要 得 到 一 个 环境 句柄 ， 
该 参数 就 是 SQL_NULL_HANDLE， 后 面 的 名 字 是 一 个 定义 过 的 常量 ， 告 诉 SQLAT1ocHand1e 这 里 
没有 相关 值 。 如 果 要 得 到 连接 句柄 ， 那 么 hz 是 该 连接 所 在 环境 的 句柄 。 如 果 要 得 到 语句 句柄 ， 
那么 zi 是 语句 所 在 连接 的 句柄 。 

3.jpnOut 是 由 SQLAT11ocHand1e 所 创建 的 句柄 地 址 。 

SQLA11ocHand1e 返 回 一 个 SQLRETURN (整数 ) 类 型 的 值 。 值 是 0 表示 没有 错误 发 生 ， 发 生 
错误 时 返回 一 非 零 值 。 

例 9.18 图 9-8 中 国 数 worthRanges 曾 作为 上 戏 套 SQL 的 例子 ， 现 在 来 考虑 该 函数 如 何在 CLI 中 开 
始 。 这 个 函数 检查 MovieExec 的 所 有 元 组 ， 将 他 们 的 净 产 值 分 成 不 同 范围 。 最 初 的 步骤 见 图 9-19。 


#include sqlcli.h 

SQLHENV myEnv ; 

SQLHDBC myCon ; 

SQLHSTMT execStat; 

SQLRETURN errorCodel ，errorCode2，errorCode3; 


errorCodel = SQLAllocHandle(SQL._HANDLE_ENYV, 


SQL_NULL_HANDLE，&myEnv) ; 
if(!errorCodel) { 
errorCode2 = SQLAllocHandle (SQL_HANDLE_DBC, 
myEnv, &myCon); 
if(!errorCode2) 
errorCode3 = SQLAllocHandle (SQL_HANDLE._STMT, 
myCon, &execStat); } 





图 9-19 声明 和 创建 环境 、 连 接 和 语句 记录 


第 (2) 到 第 (4) 行 分 别 声明 了 环境 、 连 接 和 语句 的 句柄 。 它 们 的 名 称 分 别 为 mnyEnv、myCon 和 
execStat。execStat 代 表 SQL 语 句 ; 

SELECT netWorth FROM MovieExec; 

很 像 图 9-8 中 游标 execCurosr 所 做 的 ， 但 是 目前 还 没有 与 execStat 相 关 的 SQL 语句 。 第 (5) 
行 声明 3 个 变量 ,， 用 以 存放 函数 调用 的 结果 并 指明 出 现 的 错误 。 值 0 表示 调用 过 程 中 没有 出 
现 错误 。 

第 (6) 行 调用 SQLA11ocHand1e， 需 要 一 个 环境 句柄 (第 一 个 参数 )， 第 二 个 参数 提供 一 个 
空 句柄 (因为 当 请 求 环境 句柄 时 ， 什 么 都 不 需要 )， 同 时 还 提供 地 址 myEnv 作 为 第 三 个 参数 ; 
而 产生 的 句柄 则 放 在 此 处 。 如 果 第 (6) 行 成 功 ， 第 (7) 行 和 第 (8) 行 用 环境 句柄 来 得 到 连接 记录 名 
柄 myCcon。 假 定 这 个 调用 也 成 功 ， 第 (9) 行 和 第 (10) 行 获得 语句 句柄 execStat。 回 
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9.5.2 ”进程 语句 

在 图 9-19 的 结尾 ， 创 建 了 句柄 为 execStat 的 语句 记录 。 不 过 ， 还 设 有 与 该 记录 相关 联 的 
SQL 语句 。 与 语句 句柄 相关 且 执 行 SQL 语句 的 进程 与 9.3.9 节 描述 的 动态 SQL 相似 。9.3.9 节 中 ， 
使 用 PREPARE 将 SQL 语句 的 内 容 与 所 谓 的 “SQL 变量 ”关联 ， 接 着 使 用 EXECUTE 执 行 这 条 语句 。 

如 果 将 “SQL 变量 ”看 作 语 句 句柄 ， 则 与 CLI 中 的 情况 十 分 相似 。 函 数 

SQLPrepare(sh, st, sh) 
表示 它 有 : 

1. 语句 句柄 sh， 

2. 指向 SQL 语句 的 指针 st， 

3. st 指向 字符 串 的 长 度 s!/。 如 果 不 知 道 长 度 ， 定 义 过 的 常量 5QL_NTS 将 通知 5QLPrepare 从 
字符 串 本 身 计算 出 长 度 。 或 许 ， 该 串 是 个 “以 空 值 结 束 的 字符 串 ”"， 这 样 SQLPrepare 可 以 扫描 
这 个 字符 串 直 至 遇 到 结束 符 “\0'。 

该 函数 的 作用 是 使 得 被 句柄 sh 涉及 的 语句 现在 代表 特定 的 SQL 语 句 st。 

另 一 个 函数 

SQLExecute(sh) 

则 引起 句柄 sh 涉及 的 语句 被 执行 。 对 于 SQL 语 句 的 多 种 形式 ， 如 插入 和 删除 ， 这 条 语句 的 执 
行 对 数据 库 的 影响 显而易见 。 当 sp 涉 及 的 SQL 语句 是 一 个 查询 语句 时 甚 影响 就 不 是 那么 明显 。 
如 9.5.3 节 所 要 讨论 的 ， 该 类 查询 语句 有 一 个 隐 式 的 游标 ， 它 是 其 语句 记录 的 一 部 分 。 原 则 上 
语句 被 执行 了 ， 所 以 可 以 想象 所 有 返回 的 元 组 存放 在 某 个 位 置 ， 等 待 着 被 访问 。 使 用 隐 式 游 
标 每 次 可 以 读 取 一 个 元 组 ， 这 与 9.3 节 和 9%.4 节 使 用 真实 游标 所 做 的 工作 差不多 。 

例 9.19 继续 讨论 图 9-19 开 始 的 函数 worthRanges。 查 询 语 句 

SELECT netWorth FROM MovieExec; 

与 句柄 execStat 所 涉及 语句 的 关联 可 以 用 下 面 两 个 函数 调用 实现 : 
11) SQLPrepare(execStat, "SELECT netWorth FROM MovieExec", 
SQL_NTS) ; 

12) SQLExecute(execStat) ; 
它们 可 以 紧 接 在 图 9-19 的 第 (10) 行 之 后 。 记 住 SQL_NTS 将 让 SQLPrepare 确 定 以 空 值 结束 的 字符 
串 长 度 ， 该 字符 串 被 SQL_NTS 的 第 二 个 参数 引用 。 口 

与 动态 SQL 相似 ， 使 用 函数 SQLExecDirect 可 以 将 准备 和 执行 步 又 合 二 为 一 。 合 并 上 面 第 
(11) 行 和 第 (12) 行 的 一 个 例子 如 下 : 


SQLExecDirect (execStat, "SELECT netWorth FROM MovieExec", 
SQL_NTS ) ; 


9.5.3 ”从 查询 结果 中 取 数 据 

与 杠 套 SQL 或 PSM 中 FETCH 命 令 相 当 的 函数 是 

SQLFetch (sh) 
这 里 sh 是 一 个 语句 句柄。 假定 sh 涉及 的 语句 已 经 被 执行 ， 或 者 这 个 取 数 据 操作 产生 一 个 错误 。 
于 是 像 所 有 的 CLI 函 数 一 样 ，SQLFetch 返 回 一 个 表明 成 功 或 失败 的 SQLRETURN 类 型 的 值 。 返 回 
值 SQL_NO_DATA 表 明 查 询 结果 中 没有 剩 下 元 组 。 如 同 以 前 读数 据 的 例子 ， 这 个 值 用 来 跳出 从 查 
询 结果 中 重复 取 新 元 组 的 循环 。 

然而 ， 如 果 例 9.19 中 SQLExecute 后 跟随 一 个 或 更 多 的 SQLFetch 调 用 ， 那 么 元 组 会 在 什么 
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地 方 出 现 呢 ? 答案 是 其 组 成 部 分 将 存 于 一 个 描述 记录 中 ， 该 记录 与 句柄 出 现在 SQLFetch 调 用 
中 的 语句 相关 联 。 在 每 次 取 数 据 前 ， 可 以 通过 在 开始 取 数 据 之 前 把 分 量 绑 定 到 宿主 语言 变量 
来 抽取 相同 的 分 量 。 完 成 这 个 工作 的 函数 是 ; 

SQLBindCol (sh, colNo, colType, pVar, varSize, varInfo) 

这 六 个 参数 的 意义 为 : 

1. Sh 是 所 涉及 的 语句 的 句柄 。 

2, ColNo 是 要 获得 元 素 的 值 的 (元 组 内 ) 分 量 的 数目 。 

3. colType 是 一 个 代码 ， 表 示 存 放 的 分 量 值 的 变量 类 型 。 由 sqlcli.h 提 供 的 代码 中 ， 
SQL_CHAR 表 示 字 符 数组 和 字符 串 ， 而 SQL_INTEGER 表 示 整 型 。 

4.pVar 是 一 个 指针 ， 指 向 存放 值 的 变量 。 

5. varSize 是 pVar 指 向 的 变量 值 的 字 节 长 度 。 

6. varIinfo 是 一 个 整 型 指针 ，SQLBindCo1 用 其 提供 关于 输出 值 的 附加 信息 。 

例 9.20 ”用 CLI 调 用 代替 嵌 套 SQL ， 重 写 图 9-8 中 的 函数 worthRanges。 开 始 时 如 图 9-19， 
不 过 为 了 简明 ， 省 去 了 所 有 的 错误 检查 ， 只 保留 了 测试 SQLFetch 是 否 表明 目前 没有 更 多 的 元 
组 。 代 码 见 图 9-20。 


1) #include sqlcli.h 
2) void worthRanges() { 


3) int i, digits, counts[15]; 
4) SQLHENV myEnv; 

5) SQLHDBC myCon; 

6) SQLHSTMT execStat; 

T) SQLINTEGER worth, worthInfo; 


8) SQLAllocHandle (SQL._HANDLE_ENVY, 
SQL_NULL_HANDLE，&myEnv) ; 

9) SQLAllocHandle (SQL_HANDLE_DBC, myEnv, &myCon); 
SQLAllocHandle (SQL_HANDLE_STMT, myCon, &execStat); 
SQLPrepare (execStat, 

"SELECT netWorth FROM MovieExec", SQL_NTS); 
SQLExecute(execStat); 
SQLBindCol (execStat, 1, SQL_INTEGER, &worth, 
sizeof (worth), &worthInfo); 
for(i=1i; i<15; i++)counts[i]=0; 
while(SQLFetch(execStat) != SQL_NO_DATA) { 
digits = 1; 
while((worth /= 10) > 0) digits++; 
if(digits <= 14) counts[digits]++; 
} 
for(i=1; i<15; i++) 
printf("digits = %d: number of execs = %d\n", 
i, counts[i]); 





图 9-20 ”出品 人 净 产 值 分 组 : CLI 版 本 


图 中 第 (3) 行 声明 了 与 筷 套 SQL 中 国 数 使 用 的 局 部 变量 相同 的 局 部 变量 ， 第 (4) 到 第 (7) 行 用 
sq1c1i.h 提 供 的 类 型 声明 附加 的 局 部 变量 : 这 些 变量 都 是 与 SQL 相关 的 变量 。 第 (4) 到 第 (6) 行 
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与 图 9-19 中 相同 。 不 同 的 是 第 (7) 行 新 加 了 worth (对 应 于 图 9-8 中 的 同名 共享 变量 ) 和 
worthInfo 声 明 ， 这 是 SQLBindCo1 所 要 求 的 ， 但 是 没有 用 到 。 

第 (8) 到 第 (10) 行 分 配 所 需 的 句柄 ， 如 图 9-19 所 示 ， 第 (11) 行 和 第 (12) 行 准备 和 执行 SQL 语 
句 ， 与 例 9.19 所 讨论 的 相同 。 在 第 (13) 行 ， 查 询 结果 的 第 一 列 (也 是 唯一 的 列 ) 被 绑 定 到 变量 
worth。 第 一 个 参数 是 语句 所 涉及 的 句柄 ， 第 二 个 参数 是 涉及 的 列 ， 本 例 中 是 1。 第 三 个 参数 
是 列 的 类 型 ， 第 四 个 参数 是 一 个 指针 ， 指 向 值 所 放置 的 位 置 ， 即 变量 worth。 第 五 个 参数 是 变 
量 的 长 度 ， 最 后 一 个 参数 指向 worthInfo， 是 SQL8BindCo1 放 置 附加 信息 (此 处 没有 用 到 ) 的 
地 方 。 

剩 下 的 函数 部 分 与 图 9-8 中 第 (11) 到 第 (19) 行 十 分 相似 。whi1e 循 环 开始 于 图 9-20 的 第 (15) 
行 。 注 意 ， 读 取 一 个 元 组 并 检验 是 否 超出 元 组 的 范围 ， 都 是 在 第 (15) 行 的 while 循 环 条 件 中 。 
如 果 存 在 一 个 元 组 ， 那 么 第 (16) 到 第 (18) 行 确定 整数 (被 绑 定 为 worth) 的 位 数 并 对 合适 的 增 
量 进行 计数 。 循 环 结束 后 ， 也 就 是 执行 第 (12) 行 语句 返回 的 所 有 元 组 已 经 被 检查 过 ， 第 (19) 行 
和 第 (20) 行 输出 计算 的 结果 。 口 


9.5.4 向 查询 传递 参数 

从 套 SQL 使 得 部 分 由 共享 变量 当前 值 决定 的 SQL 语句 可 以 执行 。CLI 有 相似 的 功能 ， 但 是 
更 复杂 。 所 需 的 步 又 如 下 : 

1. 用 SQLPrepare 准 备 一 条 语句 ， 该 语句 的 某 些 叫做 参数 (Parameter) 的 部 分 用 问号 取代 。 
第 ;个 问号 代表 第 ;个 参数 。 

2. 使 用 国 数 SQLBindParameter 将 值 绑 定 到 有 问号 的 地 方 。 这 个 函数 有 十 个 参数 ， 在 这 里 
只 解释 其 中 几 个 基本 参数 。 

3. 通过 调用 SQLExecute 来 执行 带 绑 定 的 查询 。 注 意 ， 如 果 改 变 了 一 个 或 多 个 参数 的 值 ， 
那么 需要 再 次 调用 SQLExecute 。 


用 SQLGetData 抽 取 分 量 
另外 一 种 绑 定 程序 变量 与 查询 结果 输出 的 方式 是 不 作 任 何 绑 定 地 读 取 元 组 ， 然 后 在 需 


要 时 将 其 分 量 转 化 为 程序 变量 。 使 用 的 函数 是 SQLGetData， 它 的 参数 与 SQLBindCo1 相 同 。 
不 过 ， 它 只 复制 一 次 数据 ， 并 且 必 须 在 读 取 数 据 之 后 使 用 ， 这 样 才能 和 开始 时 就 把 列 绑 定 
到 变量 产生 相同 的 作用 。 


下 面 的 例子 将 解释 这 个 进程 ， 并 指出 SQLBindParameter 所 需 的 重要 参数 。 

例 9.21 重新 考虑 图 9-6 的 舱 套 SQL 代码 ， 在 那个 图 中 得 到 了 两 个 变量 studioName 和 
studioAddr 的 值 ， 并 将 它们 作为 插入 到 Studio 元 组 的 分 量 。 图 9-21 描 述 了 进程 在 CLI 中 如 何 
工作 。 它 假定 对 于 插入 语句 有 一 个 语句 句柄 myStat 可 供 使 用 。 | 





/* get values for studioName and studioAddr */ 


SQLPrepare (myStat, 
"INSERT INTO Studio(name, address) VALUES(?, ?)", 


SQL_NTS) ; 
SQLBindParameter (myStat, 1,..., studioName,...); 
SQLBindParameter (myStat, 2,..., studioAddr,...); 
SQLExecute(myStat); 





图 9-21 通过 绑 定 值 与 参数 来 插入 一 个 新 的 studio 
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代码 从 赋 给 studioName 和 studioAddr 的 值 (图 中 没有 给 出 步骤 ) 开始 。 第 (1) 行 语句 
myStat 为 一 条 插 人 语句 作 准 备 ， 该 插入 语句 是 带 有 两 个 参数 〈 问 号 ) 的 VALUE 子 句 。 接 着 ， 第 
(2) 行 和 第 (3) 行 分 别 绑 定 第 一 个 和 第 二 个 问号 至 studioName 和 studioAddr 的 当前 内 容 。 最 后 ， 
第 (4) 行 执行 插入 语句 。 如 果 图 9-21 中 步骤 的 整个 序列 ， 包 括 设 写 出 的 赋 给 studioName 和 
studioAddr 新 值 的 工作 ， 被 置 于 一 个 循环 中 ， 那 么 每 次 执行 循环 ， 一 个 带 有 电影 公司 新 名 称 
和 地 址 的 新 元 组 被 插 人 到 Studio 中 。 口 


9.5.5 习题 
习题 9.5.1 使 用 带 有 CLI 调 用 的 C 语 言 重 做 习题 9.3.1。 
习题 9.5.2 使 用 带 有 CLI 调 用 的 C 语 言 重 做 习题 9.3.2。 


9.6 JDBC 





JDBC (Java Database Connectivity) 是 一 个 与 CLI 类 似 的 软 设 备 ， 人 允许 Java 程 序 访 问 SQL 
数据 库 。 虽 然 JDBC 中 Java 的 面向 对 象 的 特性 非常 明显 ， 但 其 内 容 与 CLI 十 分 相似 。 


9.6.1 JDBC 简 介 

使 用 JDBC 首 先 要 做 以 下 工作 : 

1. 包含 如 下 命令 行 : 

import java.sql.*; 
以 便 Java 程 序 中 可 以 使 用 JDBC 的 类 。 

2. 加 载 将 要 使 用 的 数据 库 系 统 的 “驱动 器 "。 这 个 驱动 器 取决 于 哪 一 个 DBMS 是 可 用 的 ， 
用 以 下 语句 加 载 所 需 的 驱动 器 : 

Class.forName (< 驱动 器 名 >); 

例如 ， 要 获得 MySQL 数 据 库 的 驱动 器 ， 则 执行 语句 : 

Class.forName("com.mysql.jdbc.Driver'") ; 
其 结果 产生 了 一 个 叫做 DriverManager 的 类 。 在 很 多 方面 ， 该 类 与 使 用 CLI 时 的 第 一 步 取 得 名 
柄 的 环境 十 分 相似 。 

3. 建立 与 数据 库 的 连接 。 如 果 将 方法 getConnection 应 用 到 DriverManager ， 那 么 就 创建 
了 一 个 Connection 类 型 的 变量 。 

创建 连接 的 Java 语 句 如 下 : 

Connection myCon = DriverManager.getConnection( <URL>, 

《用 户 名 > ,< 密码 >)， 
也 就 是 说 ， 方 法 getConnection 将 希望 连接 的 数据 库 的 URL、 用 户 名 和 密码 作为 参数 。 它 返 
回 Connection 类 型 的 对 象 ， 对 象 名 称 是 myCon。 

例 9.22 ”在 方法 getConnection 中 每 个 DBMS 有 自己 的 方式 来 具体 指明 URL。 例 如 ， 如 果 
要 连接 到 MySQL 数 据 库 ， 其 URL 为 : 

jdbc:mysq1://< 主 机 名 >/< 数 据 库 名 > 图 

JDBC Connection 对 象 和 CLI 连 接 非常 相似 ， 而 且 它 们 的 目的 相同 。 通 过 把 合适 的 方法 应 
用 到 诸如 myCon 的 连接 中 ， 可 以 创建 语句 对 象 ， 将 SQL 语句 “ 置 人 ”这 些 对 象 ， 然 后 将 值 绑 定 
至 SQL 语句 参数 ， 执 行 SQL 语 名 并且 逐 个 元 组 地 检查 结果 。 
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9.6.2 JDBC 中 的 创建 语句 

为 了 创建 语句 ， 有 两 种 方法 可 以 应 用 到 Connection 对 象 中 : 

1. createStatement( ) 返 回 Statement 类 型 的 对 象 。 此 时 ， 该 对 象 没 有 相关 的 SQL 语句 ， 
所 以 方法 createStatement( ) 被 认为 与 CLI 中 SQLA11ocHand1le 的 调用 相似 ， 该 调用 接受 一 个 连 
接 句柄 ， 返 回 一 个 语句 句柄 。 

2，prepareStatement(O) 返 回 PreparedStatement 类 型 的 对 象 ， 此 处 CO 是 一 个 作为 字符 串 被 
传递 的 SQL 查询 。 因 此 ，JDBC 中 prepareStatement(O) 的 执行 和 两 个 CLI 步 又 的 执行 相似 ， 
这 两 个 CLI 步 又 是 使 用 SQLA11ocHand1e 得 到 一 个 语句 句柄 ， 接 着 将 SQLPrepare 应 用 到 这 个 名 
柄 和 查询 2 中 。 

有 四 种 不 同 的 执行 SQL 语句 的 方法 。 像 上 述 的 两 个 方法 ， 它 们 的 区 别 在 于 是 否 接受 一 个 语 
名 作为 参数 。 不 过 , 在 查询 和 别 的 SQL 语句 中 这 些 方 法 存在 区 别 , 这 里 别 的 语句 统称 为 “更 新 ”。 
注意 5QL UPDATE 语句 只 是 JDBC 中 术语 “更 新 ”的 一 个 很 小 的 实例 。 后 者 包括 所 有 的 修改 语句 
(例如 插入 语句 ) 以 及 所 有 模式 相关 的 语句 ， 如 CREATE TABLE。 这 四 种 “执行 ”方法 是 : 

a) executeQuery(O) 接 受 一 条 必须 是 查询 的 语句 Q， 并 被 应 用 于 Statement 对 象 。 这 种 方法 
返回 ResultSet 类 型 的 对 象 ， 它 是 由 查询 0 产生 的 元 组 的 集合 (准确 地 说 是 包 )。9.6.3 节 中 将 看 
到 如 何 访问 这 些 元 组 。 

b) executeQuery0) 被 用 于 PreparedStatement 对 象 。 因 为 预备 好 的 语句 已 经 有 相关 的 查询 ， 
故 设 有 参数 。 这 种 方法 也 返回 ResultSet 类 型 的 对 象 。 

c) executeUpdate(U) 接 受 非 查 询 语句 U， 而 当 应 用 到 Statement 对 象 时 ， 执 行 U。 它 仅 对 数 
据 库 有 影响 ， 没 有 ResultSet 对 象 返 回 。 

d) executeUpdate() 没 有 参数 ， 被 应 用 于 PreparedStatement 对 象 。 在 这 种 情况 下 ， 与 准备 
好 的 语句 相关 的 SQL 语句 被 执行 。 这 条 SQL 语句 当然 也 不 能 是 查询 语句 。 

例 9.23 假定 有 一 个 连接 对 象 mnyCon， 和 希望 执行 查询 ; 

SELECT netWorth FROM MovieExec; 


一 种 方法 是 创建 名 为 execStat 的 Statement 对 象 ， 接 着 用 它 直 接 执行 查询 。 


Statement execStat = myCon.cTreateStatement () ; 
ResultSet worths = execStat .executeQuery( 
"SELECT netWorth FROM MovieExec'"); 


其 结果 集 被 置 于 ResultSet 类 型 的 对 象 worths 中 ，9.6.3 节 将 看 到 如 何 从 worths 中 提取 元 组 并 进 
行 处 理 。 

男 一 种 方法 是 立即 准备 查询 然后 再 执行 查询 。 如 果 要 重复 地 执行 相同 的 查询 ， 这 种 方法 
更 可 取 。 这 样 ， 它 只 做 一 次 准备 但 可 多 次 执行 ， 而 不 是 要 DBMS 重 复 准 备 相 同 的 查询 。 遵 循 
这 种 方法 的 JDBC 所 需 的 步 又 是 : 

PreparedStatement execStat = myCon.createStatement ( 

"SELECT netWorth FROM MovieExec'") ; 

ResultSet worths = execStat .executeQuery(); 
执行 查询 的 结果 同样 也 是 一 个 ResultSet 类 型 的 对 象 ， 称 之 为 worths。 口 

例 9.24 ”如果 要 执行 一 个 无 参数 的 非 查询 ， 那 么 在 两 种 风格 中 的 执行 步骤 相似 ， 不 过 没有 
结果 集 。 例 如 ， 假 定 想 把 下 面 的 事实 插入 到 StarsIn 中 : 2000 年 Denzel Washington 出 演 
Remember the Titans。 可 以 用 下 面 两 种 方式 中 的 任 一 个 来 创建 和 使 用 语句 starstat， 


Statement starStat = myCon.createStatement(); 
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starStat .executeUpdate("INSERT INTO StarsIn VALUES('" + 
"" Remember the Titans’, 2000, ’Denzel Washington’)'); 


或 是 
PreparedStatement starStat = myCon.createStatement( 
"INSERT INTO StarsIn VALUES(’Remember the Titans’," + 
"2000，’Denzel Washington’)"); 
starStat .executeUpdate(); 
注意 ， 每 个 Java 语 句 序列 都 利用 了 一 个 事实 ， 即 Java 操 作 符 “+” 连 接 字符 串 。 因 此 在 必要 时 ， 
能 够 将 SQL 语句 扩展 为 多 行 Java 语 句 。 el 
9.6.3 JDBC 中 的 游标 操作 
当 执行 查询 得 到 一 个 结果 集 对 象 时 ， 可 以 运行 一 个 游标 遍历 结果 集 的 元 组 。 为 达到 这 个 
目的 ， 类 ResultSet 提 供 了 如 下 有 用 的 方法 : 
1. next()， 当 将 其 应 用 到 结果 集 对 象 中 时 ， 引 起 隐 式 游标 移 向 下 一 个 元 组 〈 对 第 一 个 元 
组 ， 它 是 第 一 次 应 用 )。 如 果 没 有 下 一 个 元 组 ， 该 方法 返回 FALSE。 
2. getstring(i)、getInt(i)、getF10at(i) 和 获取 SQL 值 的 其 他 类 型 的 类 似 方法 ， 它 们 每 
一 个 都 是 返回 游标 所 指 的 当前 元 组 的 第 i 个 组 成 。 所 使 用 的 方法 必须 适合 于 第 i 个 分 量 的 类 型 。 
例 9.25 在 例 9.23 中 已 经 得 到 结果 集 worths， 可 逐个 地 访问 它 的 元 组 。 由 于 这 些 元 组 只 有 
一 个 分 量 ， 且 为 整 型 。 循 环 的 形式 为 : 
While(worths.next()) { 


Worth = worths.getInt(1); 
/* process this net worth */ 


J 口 
9.6.4 参数 传递 

在 CLI 中 ,是 使 用 问号 替代 查询 的 部 分 ， 然 后 将 值 绑 定 到 相应 的 参数 (parameters)。 在 JDBC 
中 需要 创建 一 个 准备 好 的 语句 ， 并 需要 应 用 到 PreparedStatement 对 象 方法 ， 如 setString(i,，v) 或 
setInt(i，v)， 它 们 将 值 y 绑 定 到 查询 的 第 i 个 参数 ， 而 且 值 必须 是 方法 中 一 种 合适 的 类 型 。 

例 9.26 ”模仿 例 9.21 的 CLI 代 码 ， 例 9.21 中 准备 了 一 条 语句 将 新 的 电影 公司 插入 到 关系 
Studio 中 ， 该 语句 带 有 表示 那个 电影 公司 名 称 和 地 址 的 参数 。 准 备 这 条 语句 、 设 置 其 参数 并 
且 执 行 它 的 Java 代 码 参 见 图 9-22。 继 续 假 定 连接 对 象 nyCon 有 效 。 









PreparedStatement studioStat = myCon.prepareStatement( 
2) "INSERT INTO Studio(name, address) VALUES(?, ?)"); 
/* get values for variables studioName and studioAddr 
from the user */ 
3) studioStat.setString(1, studioName); 
4) studioStat.setString(2, studioAddr); 
studioStat .executeUpdate(); 





图 9-22 在 JDBC 中 设置 和 使 用 参数 

第 (1) 行 和 第 (2) 行 创建 和 准备 插入 语句 。 该 语句 对 每 个 被 插入 的 值 有 相应 的 参数 。 第 (2) 行 以 后 
开始 了 一 个 循环 ， 该 循环 重复 地 向 用 户 询问 电影 公司 的 名 称 和 地 址 ， 并 将 这 些 字符 串 置 于 变量 
studioName 和 studioAddr 中 。 这 里 的 赋值 没有 显示 出 来 ， 而 是 通过 注释 表达 。 第 (3) 行 和 第 (4) 
行 分 别 将 第 一 个 和 第 二 个 参数 指向 保存 studioName 和 studioAddr 当 前 值 的 字符 串 。 最 后 ， 第 
(5) 行 用 参数 的 当前 值 执行 插入 语句 。 第 (5) 行 之 后 ， 用 注释 表示 的 步骤 开始 再 次 进行 循环 。 口 
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9.6.5 习题 
习题 9.6.1 用 带 JDBC 的 Java 代 码 重 做 习题 9.3.1 。 
习题 9.6.2 用 带 JDBC 的 Java 代 码 重 做 习题 9.3.2。 


&7 PHP 
PHP 是 一 种 用 来 帮助 创建 HTML 网 页 的 脚本 语言 。 类 似 于 JDBC，PHP 通 过 一 个 可 用 的 库 


来 提供 对 数据 库 操 作 的 支持 。 这 一 节 将 给 出 有 关 PHP 的 一 个 简要 综述 ， 同 时 展示 在 该 语言 中 
数据 库 操 作 如 何 被 执行 。 


PHP 代 表 什 么 ? 
最 初 ，PHP 是 “个 人 主页 ”(Personal Home Page) 首 字母 的 缩写 。 近 来 ， 它 被 认为 是 


“PHP: 超 文本 预 处 理 器 ”(PHP: Hypertext Preprocessor) 的 递归 型 首 字母 缩写 ， 同 GNU 
(=“GNU is Not Unix") 一 样 。 





9.7.1 _ PHP 基础 

所 有 的 PHP 代 码 都 是 用 来 艇 入 到 HTML 文 本 中 。 浏 览 器 通过 将 PHP 代 码 放 置 于 特殊 的 标记 
中 来 识别 它 ， 类 似 于 : 

<? php 

PHP 代码 

?> 

PHP 的 许多 方面 ， 如 赋值 语句 、 分 支 和 循环 都 类 似 于 C 或 者 Java， 因 此 这 里 不 会 再 明确 地 
讨论 它们 。 但 是 ，PHP 中 有 一 些 有 趣 的 且 应 该 关注 的 特点 。 

变量 

变量 无 类 型 并 且 不 需 声明 。 所 有 变量 以 $ 符 号 开始 。 

通常 ， 变 量 被 声明 为 “类 ”的 成 员 ， 类 中 的 某 些 函数 (类似 于 Java 的 方法 ) 可 以 应 用 这 
些 变量 。 函 数 一 应 用 操作 符 是 ->， 相 当 于 Java 或 Ct+ 中 的 点 。 

字符 串 

PHP 中 字符 串 的 值 用 单 引号 或 双 引 号 括 起 ,但 两 者 有 着 重要 的 不 同 。 用 单 引 号 括 起 的 字 
符 串 照 字 面 意思 处 理 ， 像 SQL 字符 串 一 样 。 而 当 字 符 串 用 双 引 号 括 起 时 ， 字 符 串 中 的 任 一 个 
变量 都 被 它们 的 值 所 替代 。 

例 9.27 如 下 代码 : 

$foo = ’bar’; 

$x = ’Step up to the $foo’; 
$x 的 值 是 Step up to the $foo。 但 是 ， 如 果 用 以 下 代码 来 替换 上 述 代码 来 执行 : 

i ee to the $foo"; 
$x 的 值 是 Step up to the bar。 因 为 bar 不 包含 美元 符号 ， 因 此 不 是 变量 ， 所 以 无 论 是 单 引号 还 是 双 
引号 对 它 都 设 有 关系 。 然 而 ， 仅 当 变 量 $foo 用 双 引 号 括 起 时 ， 它 才 会 被 替换 ， 如 第 二 个 例子 所 示 。 口 

用 点 来 串联 字符 串 。 因 此 ， 语 名 

$y = "$foo" . bar’; 
将 值 barbar 赋 给 yy。 
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9.7.2 数组 

PHP 有 普通 数组 ( 称 为 数字 型 ) ， 其 下 标 为 0，1，…。 它 也 含有 那些 实质 上 是 映射 的 数组 ， 
被 称 为 关联 数组 (associative arrays)。 关 联 数组 的 下 标 ( 键 ) 可 以 是 任何 一 个 字符 ， 每 个 键 
关联 一 个 值 。 两 种 数组 都 可 以 用 传统 的 方 括号 来 标定 下 标 ， 但 是 对 于 关联 数组 ， 数 组 元 素 这 
样 来 表示 : 

< 键 ”=> < 值 > 

例 9.28 下 面 一 行 

$a = array(30,20,10,0); 
设置 $a 为 一 个 长 度 为 4 的 数字 型 数组 ， 将 $a[0] 赋 值 为 0，$a[1] 赋 值 为 20， 等 等 。 口 

例 9.29 下 面 一 行 

$seasons = array(’spring’ => ’warm’, ’summer’ => ’hot’, 

’fall’ => ’warm’, ’winter’ => ’cold’); 


声明 $seasons 为 一 个 长 度 为 4 的 关联 型 数组 。 例 如 ，$seasons[”summer”] 的 值 为 ‘hot’*。 口 


9.7.3 PEAR DB 库 
PHP 有 一 个 称 作 PEAR (PHP 扩 展 和 应 用 仓库 ) 的 库 的 集合 。 其 中 的 一 个 库 DB 包含 一 些 类 
似 于 JDBC 中 方法 的 普通 函数 ,需要 告诉 函数 DB:; :connect 哪 个 DBMS 是 人 们 希望 读 取 的 DBMS ， 
而 DB 中 的 其 他 函数 中 没有 一 个 需要 知道 当前 使 用 的 DBMS。 注 意 DB: :connect 中 的 双 冒 号 是 
PHP 告 诉 “ 函 数 connect 在 DB 库 中 ”的 方式 。 用 以 下 语句 来 使 DB 库 可 应 用 于 PHP 程 序 : 
include(DB.php); 


9.7.4 使 用 DB 创建 数据 库 连接 

connect 函 数 的 调用 形式 如 下 : 

$myCon = DB:; :connect(< 卖 家 >://< 用 户 名 >:< 密 码 >) 

《< 主机 名 /< 数据 库 名 >); 

该 调用 的 分 量 类 似 于 创建 连接 的 JDBC 语 名 ( 见 9.6.1 节 )。 其 中 一 个 例外 就 是 卖家 ， 它 是 被 DB 
库 使 用 的 代码 。 例 如 ，mysq1i 就 是 指 MySQL 数 据 库 最 近 版 本 的 代码 。 

执行 完 该 语句 后 ， 变 量 $myCon 成 为 一 个 连接 。 像 所 有 的 PHP 变 量 一 样 ，$myCon 可 以 更 改 
类 型 。 但 只 要 它 是 连接 ， 就 可 以 将 它 应 用 于 那些 处 理 与 该 连接 相连 的 数据 库 的 有 用 的 函数 中 。 
例如 ， 要 断 开 与 数据 库 的 连接 ， 可 以 用 语句 : 


$myCon->disconnect (); 


记 住 PHP 中 符号 -> 表示 应 用 一 个 函数 到 一 个 “对 象 ”。 


9.7.5 执行 SQL 语句 
所 有 的 SQL 语句 都 涉及 “查询 ” 且 由 query 国 数 执行 ， 它 接受 语句 作为 参数 ， 并 且 应 用 于 
连接 变量 。 
例 9.30 ”我 们 复制 例 9.24 的 插入 语句 ， 插 入 Denzel Washington 和 Remember the Titans 到 表 
StarsIn 中 。 假 设 imyCon 已 经 连接 到 电影 数据 库 ， 于 是 可 以 简单 地 表示 为 : 
$result = $myCon->query("INSERT INTO StarsIn VALUES(" . 
"Denzel Washington’, 2000,，’'Remember the Titans’)'"); 


注意 ， 这 里 圆 点 串联 了 两 个 组 成 查询 的 字符 串 。 因 为 要 将 查询 用 两 行 表 示 ， 所 以 将 字符 串 分 
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为 两 部 分 。 
如 果 插 入 语句 执行 失败 ， 变 量 $resu1t 将 保存 一 个 错误 代码 。 如 果 “ 查 询 ” 确 实 是 一 个 
SQL 查 询 ， 则 变量 $result 是 一 个 指向 结果 元 组 的 游标 〈 见 9.7.6 节 )。 口 





正如 将 在 9.7.7 节 讨论 的 那样 ，PHP 人 允许 SQL 带 有 参数 ， 并 通过 问号 来 表示 。 然 而 ， 双 引 
号 中 的 扩展 变量 的 能 力 提供 了 一 种 简单 的 方法 去 执行 那些 依赖 用 户 输入 的 SQL 语句 。 实 际 上 ， 
因为 PHP 在 网 页 中 使 用 ， 所 以 有 了 艇 和 的 方法 去 拓展 HTML 的 性 能 。 

通常 通过 展示 表单 给 用 户 并 且 获 得 他 们 “提交 ”的 结果 ， 可 以 得 到 网 页 上 用 户 的 信息 。 
PHP 提 供 一 个 叫做 $_POST 的 关联 数组 存储 用 户 提供 的 信息 。 它 的 键 为 表单 元 素 的 名 称 ， 关 联 
的 值 则 是 用 户 在 表单 中 的 输入 。 

例 9.31 假设 要 求 用 户 填写 一 张 各 要 素 为 tit1e、year 和 starName 的 表单 。 这 三 项 的 值 组 
成 一 个 元 组 ， 可 以 将 其 插入 到 StarsIn 表 中 。 语 句 是 : 

$result = 4$myCon->query('"INSERT INTO StarsIn VALUES( 

$_POST[’title’], $_POST[’year’], $_POST[’starName’])"),; 

它 将 获得 这 三 项 表单 要 素 所 提交 的 值 。 因 为 查询 参数 是 一 个 双 引 号 的 字符 串 ， 所 以 PHP 评 估 
像 $_POST[”title”] 这 样 的 术语 ， 并 用 它们 的 值 来 替代 它们 。 口 


9.7.6 PHP 中 的 游标 操作 

当 一 个 query 函 数 接受 一 个 真实 的 查询 作为 参数 时 ， 它 将 返回 一 个 结果 对 象 ， 即 一 个 元 组 
列表 。 每 个 元 组 都 是 下 标 从 0 开始 的 数字 型 数组 。 可 以 应 用 在 结果 对 象 中 的 基础 函数 是 
fetchRow( )， 它 返回 下 一 行 ， 没 有 下 一 行 则 返回 0〈 假 )。 

例 9.32 ”图 9-23 中 的 代码 是 例 9.23 和 例 9.25 中 JDBC 的 赋值 语句 。 它 假设 连接 $myCon 跟 前 
面 一 样 是 可 用 的 。 


1) $worths = $myCon->query('"SELECT netWorth FROM MovieExec'"); 
2) while ($tuple = $worths->fetchRow()) { 


3) $worth = $tuple[0]; 
// process this value of $worth 





} 


图 9-23 PHP 中 查找 和 处 理 净 产值 


第 (1) 行 传递 查询 到 连接 $myCon， 结 果 对 象 赋值 给 变量 $worths 。 接 着 进入 一 个 循环 ， 重 
复 地 从 结果 中 取出 元 组 ， 并 且 将 元 组 赋 给 变量 $tup1e， 它 巧妙 地 成 为 了 一 个 长 度 为 1 的 数组 ， 
只 有 netWorth 列 成 为 它 的 分 量 。 类 似 C 语 言 ，fetchRow( ) 返 回 的 值 成 为 while 语 句 的 条 件 。 因 
此 ， 如 果 设 有 发 现 元 组 ， 则 值 为 0， 终 止 循环 。 在 第 (3) 行 ， 元 组 第 一 个 〈 唯 一 的 ) 分 量 的 值 被 
提取 出 来 并 赋 给 变量 $worth。 这 里 没有 写 出 对 该 值 的 处 理 。 口 


9.7.7 PHP 中 的 动态 SQL 

如 同 JDBC 一 样 ，PHP 允 许 SQL 查 询 包 含 问 号 。 这 些 问 号 是 那些 在 语句 执行 过 程 中 稍 后 会 
被 填写 的 值 的 占 位 符 。 处 理 操作 说 明 如 下 。 

可 以 在 连接 中 应 用 函数 prepare 和 execute， 这些 函 数 类 似 于 在 9.3.9 节 或 别处 讨论 过 的 相 
似 的 命名 函数 。 函 数 prepare 接 受 一 个 SQL 语 句 作为 参数 , 并 且 返 回 该 语句 一 个 准备 好 的 版 本 。 
图 数 execute 接 受 两 个 参数 : 准备 好 的 语句 以 及 该 语句 中 用 来 替换 问号 值 的 数组 。 当 然 ， 如 果 
只 有 一 个 问号 ， 那 么 就 是 一 个 简单 变量 ， 而 不 是 一 个 数组 了 。 
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例 9.33 再 次 回 到 例 9.26 的 问题 ， 插 入 多 个 名 称 一 地 址 对 到 关系 Studio。 开 始 先 准 备 带 有 
参数 的 查询 : 


$prepquery = $myCon->prepare ("INSERT INTO Studio(name, ". 
"address) VALUES(?,?)"); 


现在 ，$prepQuery 是 一 个 “准备 好 的 查询 "。 可 以 将 它 连同 一 个 具有 电影 公司 名 称 和 地 址 这 两 
个 值 的 数组 作为 函数 execute 的 参数 。 例 如 ， 可 以 执行 以 下 代码 : 

$args = array(’MGM’, ’Los Angeles’); 

$result = $myCon->execute($prepQuery, $args); 
这 样 安排 的 优点 与 动态 SQL 的 所 有 实现 一 样 。 如 果 用 该 方法 插入 多 个 不 同 的 元 组 ， 只 需要 准 
备 一 次 插入 语句 就 能 多 次 执行 它 。 口 


9.7.8 习题 

习题 9.7.1 用 PHP 的 代码 重 做 习题 9.3.1。 

习题 9.7.2 用 PHP 的 代码 重 做 习题 9.3.2。 

习题 9.7.3 ” 例 9.31 中 讲 到 PHP 的 特性 ， 即 双 引 号 内 的 字符 串 有 变量 扩展 功能 。 这 个 特性 有 多 重要 ?是 
否 能 够 做 一 些 如 同 JDBC 中 的 工作 ?如 果 可 以 ， 该 怎么 做 呢 ? 


9.8 小 结 


。 三 层 体 系 结 构 (Three-Tier Architecture ) : 支持 大 规模 用 户 网 络 间 交互 的 大 型 数据 库 安 
装 通常 使 用 三 层 处 理 : Web 服 务 器 、 应 用 服务 器 和 数据 库 服务 器 。 每 层 可 有 多 个 激活 的 
进程 ， 而 这 些 进程 可 以 运行 在 一 个 处 理 器 或 分 布 于 多 个 处 理 器 。 

。SQL 标 准 下 的 客户 /服务 器 系统 (Client-Server 5 in the SQL Standard) ， SQL 客户 
通过 创建 一 个 连接 (两 个 进程 之 间 的 链接 ) 和 会 话 (操作 序列 ) 来 建立 到 服务 器 的 连接 。 
在 会 话 中 执行 的 代码 来 自 一 个 模块 ， 此 模块 的 执行 叫做 SQL 代理 。 

。 数据 库 环 境 (the Database Environment) : 使 用 SQL DBMS 的 安装 创建 一 个 SQL 环境 。 
在 此 环境 中 ， 数 据 库 元 素 ( 比 如 关系 ) 组 成 (数据库 ) 模式 、 目 录 以 及 筷 。 目 录 是 模式 的 
集合 ， 而 入 是 用 户 可 以 看 到 的 最 大 的 元 素 集 合 。 

。 阻 抗 不 匹配 (Impedance Mismatch); SQL 的 数据 模型 和 传统 的 宿主 语言 的 数据 模型 有 
着 很 大 的 不 同 。 因 此 ， 两 者 之 间 信 息 的 传递 是 通过 共享 变量 来 实现 的 ， 共 享 变量 可 以 表 
示 程 序 中 SQL 部 分 的 元 组 的 分 量 。 

。 嵌 套 SQL (Embedded SQL ) : 不 采用 基本 查询 界面 来 表达 SQL 查询 以 及 更 新 ， 而 是 在 传 
统 的 宿主 语言 中 嵌 套 SQL 查询 ， 这 样 编写 的 程序 通常 更 为 有 效 。 处 理 器 将 嵌 套 SQL 语句 
转换 成 合适 的 宿主 语言 的 函数 调用 。 

。 游 标 (Cursor): 游标 是 一 个 SQL 变量 ， 它 指示 关系 中 的 一 个 元 组 。 通 过 游标 覆盖 关系 
的 每 个 元 组 ， 宿 主语 言 与 SQL 的 连接 变 得 较为 容易 。 检 索 到 当前 元 组 的 分 量 后 存 人 共享 
变量 中 ， 并 使 用 宿主 语言 进行 处 理 。 

“动态 SQL (Dynamic SQL ): 宿主 语言 程序 中 不 是 黎 套 特定 的 SQL 语句 ， 而 是 创建 字符 
串 ， 由 SQL 系统 将 该 字符 串 解释 为 SQL 语句 并 执行 。 

。 永 久 存 储 模块 (Persistent Stored Module): 可 以 创建 一 些 过 程 和 函数 的 集合 ， 把 它 作为 
数据 库 模 式 的 一 部 分 。 这 些 过 程 和 函数 用 特殊 语言 编写 ， 该 语言 拥有 常见 控制 原 语 和 
SQL 语句 。 
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。 调 用 层 接口 (the Call-Level Interface): 有 一 个 称 作 SQL/CLI (或 者 ODBC) 的 标准 函数 
库 可 以 链接 到 任何 一 个 C 程 序 。 鞭 功能 与 典 套 SQL 相 似 ， 但 它 不 需要 预 处 理 器 。 
。JDBC: Java 数 据 库 连接 是 一 个 Java 类 的 集合 ， 类 似 于 CLI， 用 来 连接 Java 程 序 与 数据 库 。 
。PHP: 另 一 种 实现 调用 层 接 口 的 常用 系统 是 PHP。 这 种 语言 幅 套 在 HTML 网 页 中 ， 能 够 
使 网 页 与 数据 库 进 行 交互 。 
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第 10 草 关系 数据 库 的 新 课题 


本 章节 介绍 数据 库 程序 员 感 兴趣 的 另外 的 课题 。 首 先 从 介绍 对 数据 库 元 素 访问 授权 的 
SQL 标准 开始 ， 然 后 ， 考 虑 允许 SQL 递归 编程 (查询 用 户 自己 产生 的 结果 ) 的 SQL 扩展 。 最 后 ， 
讨论 “对 象 关 系 ” 模 型 ， 以 及 它 在 SQL 标准 中 如 何 实现 的 问题 。 

章节 的 剩余 部 分 讨论 “OLAP”， 或 者 说 联机 分 析 处 理 。OLAP 涉 及 复杂 查询 ， 自 然 要 花 可 
观 的 时 间 执行 。 因 为 它们 开销 如 此 之 高 ， 所 以 开发 了 一 些 专门 的 技术 去 高 效 地 解决 这 些 问 题 。 
其 中 ， 一 个 重要 的 方向 就 是 关系 的 实现 ， 被 称 为 “数据 立方 ”， 它 与 传统 的 SQL“ 元 组 包 ” 方 
法 有 很 大 的 不 同 。 


10.1 SQL 中 的 安全 机 制 和 用 户 认 证 


SQL 假定 存在 授权 ID (authorization ID ) ， 这 些 ID 基本 上 都 是 用 户 名 。SQL 也 有 一 个 特殊 
的 授权 ID ， 称 作 PUBLIC ， 它 包含 了 所 有 用 户 。 授 权 ID 可 以 被 授予 权限 ， 很 像 在 操作 系统 维护 
的 文件 系统 中 的 授权 。 例 如 ，UNIX 系 统一 般 可 以 控制 三 种 权限 : 读 、 写 以 及 执行 。 这 些 权限 
是 有 意义 的 ， 因 为 UNIX 系 统 中 受 保护 的 对 象 是 文件 ， 这 三 种 操作 已 囊括 了 可 以 对 文件 所 做 的 
事 。 但 是 数据 库 比 文件 系统 要 复杂 得 多 ， 相 应 的 SQL 中 权限 的 种 类 也 要 复杂 得 多 。 

本 节 将 首先 学 习 SQL 人 允许 对 数据 库 元 素 进 行 哪些 授权 ， 接 着 学 习 用 户 (也 即 授权 ID) 怎 
样 获得 授权 ， 最 后 学 习 如 何 收 权 。 


10.1.1 权限 

SQL 中 定义 了 九 种 类 型 的 权限 : SELECT、INSERT、DELETE、UPDATE、REFERENCE、 
USAGE、TRIGGER、EXECUTE 以 及 UNDER。 前 四 个 应 用 到 关系 上 ， 这 里 关系 可 以 是 表 或 者 视图 。 
正如 这 四 种 权限 的 名 字 所 示 ， 它 们 分 别 赋予 了 权限 拥有 者 查询 关系 、 向 关系 中 插入 数据 、 删 
除 关 系 中 的 数据 以 及 修改 关系 中 元 组 的 权力 。 

一 条 SQL 语句 如 果 没 有 相应 的 权限 是 不 能 被 执行 的 。 例 如 ， 一 个 select-from-where 语 句 要 求 
对 它 访 问 的 每 个 表 有 SELECT 权限 。 在 后 面 可 以 看 到 模块 如 何 获得 这 些 权限 。SELECT、INSERT 以 
及 UPDATE 也 可 以 有 一 些 相关 的 属性 ， 例 如 SELECT(name ,addr )。 这 样 一 来 ， 查 询 时 只 有 这 些 属 
性 可 以 看 到 ， 插 和 时 只 能 指明 这 些 属性 的 值 ， 修 改 时 也 只 能 修改 这 些 属性 。 注 意 ， 授 权 的 时 候 ， 
这 些 权限 会 和 一 个 特定 的 关系 相 联 系 ， 因 此 属性 name 和 addr 属 于 什么 关系 就 很 清楚 。 

关系 上 的 REFERENCE 权 限 是 指 在 完整 性 约束 下 引用 关系 的 权力 。 这 些 约束 可 以 使 用 第 7 章 
提 到 的 所 有 形式 ， 像 断言 、 基 于 属性 或 元 组 的 检查 或 引用 完整 性 约束 等 。REFERENCE 权 也 可 以 
有 一 些 附加 的 属性 ， 此 时 ， 只 有 这 些 属性 在 约束 中 可 以 被 引用 。 一 个 约束 只 有 在 它 所 在 模式 
的 拥有 者 拥有 该 约束 涉及 的 所 有 数据 的 REFERENCE 权 时 才能 被 创建 。 

USAGE 权 限 主 要 应 用 在 关系 和 断言 之 外 的 多 种 模式 元 素 上 (参见 9.2.2 节 )。 它 给 出 了 在 声 
明 中 使 用 这 些 元 素 的 权利 。 关 系 上 的 TRIGGER 权 限 是 定义 这 个 关系 上 的 触发 器 的 权力 。 
EXECUTE 是 执行 如 PSNWM 过 程 或 函数 之 类 的 代码 的 权力 。 最 后 ，UNDER 是 创建 给 定 类 型 的 子 类 型 
权力 。 类 型 问题 在 10.4 中 介绍 。 
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触发 器 和 权限 
触发 器 如 何 处 理 权限 有 一 点 微妙 。 首 先 ， 如 果 你 拥有 一 个 关系 的 TRIGGER 权 限 ， 那 么 就 
可 以 在 这 个 关系 上 创建 任何 你 所 喜欢 的 触发 器 。 可 是 ， 由 于 触发 器 的 条 件 和 动作 部 分 与 数 


据 库 的 查询 和 /或 修改 很 相似 ， 因 此 触发 器 的 创建 者 必须 拥有 这 些 操 作 的 权限 。 当 有 人 执行 
唤醒 触发 器 的 操作 时 ， 他 不 需要 具备 触发 器 条 件 和 动作 所 要 求 的 权限 。 触 发 器 是 在 其 创建 
者 的 权限 下 执行 。 


例 10.1 考虑 执行 图 6-15 的 插入 语句 所 需要 的 权限 ， 该 语句 再 次 在 图 10-1 中 生成 。 首 先是 


插入 到 关系 Studio 的 语句 ， 所 以 需要 Studio 的 1) INSERT INTO Studio(name) 


INSERT 权 限 。 但 是 ， 既 然 插入 指定 的 只 是 属性 SELECT DISTINCT studioName 
1 FROM Movies 

name 分 量 ， 那么 注 有 关系 5tudio 的 INSERT 人 权限 或 WHERE wh ol NOT IN 

INSERT (name) 权限 都 是 可 以 的 。 后 一 种 权限 仅 (SELECT name 

仅 允 许 插 入 指定 分 量 name 的 Studio 元 组 ， 元 组 的 FROM Studio); 

其 他 分 量 接受 的 是 缺 省 值 或 NULL， 正如 图 10-1 所 完 图 10-1 加 入 新 电影 公司 


成 的 那样 。 

但 是 ， 注 意图 10-1 的 插入 语句 还 包括 两 个 子 查 询 ， 这 两 个 子 查 询 分 别 开 始 于 第 2 行 和 第 5 
行 。 为 了 执行 这 些 选 择 语句 ， 需 要 具有 子 查询 必需 的 权限 。 因 此 ， 需 要 包含 在 FROM 子 句 中 的 
两 个 关系 Movies 和 Studio 的 SELECT 权限 。 要 注意 的 是 ， 仅 仅 拥 有 Studio 的 INSERT 权 限 并 不 意 
味 着 拥有 Studio 的 SELECT 权限 ， 反 之 亦 然 。 由 于 选择 的 只 是 Movies 和 Studio 的 某 个 属性 ， 那 
么 拥有 Movies 的 SELECT (StudioName) 权限 和 Studio 的 SELECT (name) 权限 或 者 是 拥有 包含 
这 些 属性 的 属性 列表 的 权限 就 足够 了 。 口 


10.1.2 创建 权限 

权限 有 两 个 方面 需要 明确 : 最 初 是 如 何 创建 的 以 及 如 何 从 一 个 用 户 传递 到 另 一 个 用 户 。 
这 里 只 讨论 初始 化 ， 权 限 的 传递 将 在 10.1.4 节 讨论 。 

首先 ，SQL 元 素 (如 模式 或 模块 ) 都 有 一 个 属 主 。 属 主 拥有 其 所 属 事物 的 所 有 权限 。 
SQL 中 有 三 种 建立 属 主 身份 的 情况 : 

1. 模式 创建 时 ， 模 式 和 该 模式 中 所 有 的 表 以 及 其 他 的 模式 元 素 的 所 有 权 都 属于 创建 这 个 
模式 的 用 户 所 有 。 这 样 这 个 用 户 拥有 模式 元 素 的 所 有 可 能 的 权限 。 

2. 会 话 被 CONNECT 语 句 初始 化 时 ， 有 机 会 用 AUTHORIZATION 子 句 指定 用 户 。 例 如 ， 连 接 语句 

CONNECT TO Starfleet-sql-server AS conni 

AUTHORIZATION kirk; 

代表 用 户 kirk 创 建 了 一 个 连接 到 名 字 为 Starfleet-sq1-server 的 SQL 服务 器 的 链 路 connl 。 
在 SQL 的 实现 中 还 将 验证 用 户 名 是 否 有 效 ， 例 如 通过 询问 密码 。 另 外 ， 也 可 以 将 密码 包含 在 
AUTHORIZATION 子 句 中 ， 如 9.2.5 节 所 讨论 的 那样 。 但 是 这 种 方式 有 点 不 安全 ， 因 为 密码 可 以 
被 别人 从 Kirk 的 背后 看 到 。 

3. 模块 创建 时 ， 可 通过 AUTHORIZATION 子 句 选择 其 属 主 。 例 如 ， 模 块 创建 语句 中 的 子 句 

AUTHORIZATION picard; 
使 得 用 户 picard 成 为 该 模块 的 属 主 。 模 块 也 可 以 不 指定 属 主 ， 这 种 情况 下 模块 被 公开 执行 ， 执 
行 模块 中 的 任何 操作 所 必需 的 权限 必须 从 别处 取得 ， 例 如 在 模块 执行 过 程 中 连接 和 会 话 与 用 
户 的 关联 。 








i 





be 
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10.1.3 检查 权限 的 过 程 

如 上 所 述 ， 每 个 模块 、 模 式 和 会 话 有 一 个 相关 用 户 。 用 SQL 术语 就 是 ， 每 个 都 有 一 个 相 
关 的 授权 ID。 任 何 SQL 操 作 有 两 部 分 : 

1. 数据 库 元 素 ， 操 作 将 在 其 上 执行 。 

2. 产 生 操作 的 代理 。 

对 代理 有 效 的 权限 来 自 一 个 叫做 当前 授权 ID (current authorization ID) 的 特定 授权 ID 。 
这 个 ID 可 以 是 

a) 模块 授权 ID ， 如 果 代 理 正 在 执行 的 模块 有 一 个 授权 ID。 

b) 会 话 授权 ID。 

只 要 当前 授权 ID 拥有 执行 操作 所 涉及 的 数据 库 元 素 所 必需 的 权限 ， 就 可 以 执行 这 个 SQL 
操作 。 

例 10.2 为 了 明白 检查 权限 的 机 制 ， 重 新 考虑 例 10.1。 假 定 所 引用 的 表 一 一 Movies 和 
Studio 一 一 是 用 户 janeway 创 建 和 拥有 的 模式 MovieSchema 的 一 部 分 。 这 样 ， 用 户 janeway 拥 
有 这 些 表 和 模式 MovieSchema 的 任何 其 他 元 素 的 所 有 权限 。 她 可 以 通过 10.1.4 节 描述 的 机 制 将 
一 些 权 限 授权 给 别人 ， 但 是 目前 假定 还 没有 授权 给 任何 人 。 例 10.1 的 插入 有 多 种 执行 方式 。 

1. 用 户 janeway 创 建 了 一 个 包含 AUTHORIZATION janeway 子 句 的 模块 ， 这 个 插入 可 以 作为 
该 模块 的 一 部 分 来 执行 。 如 果 有 模块 授权 ID 的 话 ， 它 总 是 变 成 当前 授权 ID。 然 后 ， 模 块 和 它 
的 SQL 插 人 语句 就 几乎 与 用 户 janeway 拥 有 相同 的 权限 ， 包 括 表 Movies 和 Studio 的 所 有 权限 。 

2. 插入 可 能 是 一 个 没有 属 主 的 模块 的 一 部 分 。 这 时 用 户 janeway 在 CONNECT 语 名 中 使 用 
AUTHORIZATION janeway 子 句 打 开 一 个 连接 。 于 是 ，janeway 再 次 成 为 当前 授权 ID， 插 入 语句 
拥有 了 所 需 的 所 有 权限 。 

3. 用 户 janeway 将 表 Movies 和 Studio 的 所 有 权限 授权 给 用 户 archer， 或 是 代表 “所 有 用 
户 ” 的 特殊 用 户 PUBLIC。 假 定 插入 语句 存在 于 带 有 子 名 

AUTHORIZATION archer 
的 模块 中 。 由 于 当前 授权 也是 archer， 而 该 用 户 拥 有 所 需 的 权限 ， 故 插入 再 次 被 允许 。 

4. 同 (3)， 假 定 用 户 janeway 已 经 将 所 需 的 权限 给 了 用 户 archer。 同 时 又 假定 插入 语句 存 
在 于 没有 属 主 的 模块 中 。 插 入 是 在 授权 ID 被 AUTHORIZATION archer 子 句 设置 的 会 话 中 执行 。 
这 样 ， 当 前 授权 ID 是 archer 且 这 个 ID 拥有 所 需 的 权限 。 口 

例 10.2 说 明了 几 条 准则 ， 将 其 总 结 如 下 : 

。 如 果 数 据 的 属 主 与 当前 授权 ID 的 用 户 是 同一 个 的 话 ， 所 需 的 权限 通常 总 是 可 以 得 到 。 上 

述 (1) 和 (2) 说 明了 这 一 点 。 

。 如 果 数 据 的 属 主 把 这 些 权限 授权 给 当前 授权 ID 的 用 户 ， 或 者 这 些 权 限 被 授权 给 用 户 

PUBLIC， 那 么 所 需 的 权限 也 是 可 以 得 到 。 情 况 (3) 和 (4) 说 明了 这 一 点 。 

。 数 据 的 属 主 或 者 是 已 经 取得 数据 权限 的 用 户 执行 该 模块 使 得 所 需 权 限 可 以 得 到 。 当 然 ， 

用 户 需 要 模块 本 身 的 EXECUTE 权 限 。 情 况 (1) 和 (3) 说 明了 这 点 。 

。 如果 会 话 授 权 ID 是 拥有 所 需 权限 的 用 户 的 授权 ID 时 ， 在 该 会 话 中 执行 一 个 公开 可 用 的 模 

块 是 合法 执行 这 个 操作 的 另 一 种 方式 。 情 况 (2) 和 (4) 说 明了 这 点 。 

10.1.4 授权 


到 目前 为 止 ， 拥 有 数据 库 元 素 权限 的 唯一 方式 是 成 为 元 素 的 创建 者 和 属 主 。SQL 提 供 了 
GRANT 语 句 以 允许 一 个 用 户 将 权限 授权 给 另 一 个 用 户 。 第 一 个 用 户 仍然 保留 了 所 授予 的 权限 。 
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因此 ，GRANT 被 认为 是 “复制 权限 ”。 

权限 的 授予 与 复制 之 间 有 一 个 重要 的 区 别 。 每 个 权限 有 一 个 相关 的 授权 选项 (grant 
option)。 也 就 是 说 ， 用 户 可 以 拥有 一 个 权限 ， 如 带 有 “授权 选项 ”的 表 Movies 上 的 SELECT 权 
限 。 同 时 第 二 个 用 户 可 以 有 相同 的 权限 ， 但 没有 “授权 选项 ”。 于 是 ， 第 一 个 用 户 可 以 将 
Movies 的 SELECT 权限 授权 给 第 三 个 用 户 ， 甚 至 授权 时 还 可 以 〈 也 可 以 没有 ) 带 有 授权 选项 。 
但 是 ， 第 二 个 用 户 没 有 授权 选项 ， 所 以 他 不 可 以 将 Movies 的 SELECT 权限 授权 给 其 他 人 。 如 果 
第 三 个 用 户 得 到 带 授 权 选 项 的 权限 ， 那 么 这 个 用 户 还 可 以 将 权限 授权 给 第 四 个 用 户 ， 并 同时 
可 以 带 有 或 设 有 授权 选项 ， 等 等 。 

授权 语句 (grant statement) 的 格式 如 下 : 

GRANT “权限 列表 > 0N “数据 库 元 素 》T0 《< 用户 列表 > 
其 后 可 以 加 上 WITH GRANT OPTION。 

典型 的 数据 库 元 素 是 一 个 关系 、 一 个 基本 表 或 者 是 一 个 视图 。 如 果 是 其 他 类 型 的 元 素 ， 
则 元 素 的 名 字 前 级 是 该 元 素 的 类 型 ， 例 如 ASSERTION。 权 限 列表 是 一 个 或 多 个 权限 ， 例 如 
SELECT 或 者 INSERT (name)。 有 选择 地 ， 关 键 字 ALL PRIVILE6ES 可 能 在 这 里 出 现 ， 表 示 授 权 
者 在 被 讨论 的 数据 库 元 素 上 的 合法 授权 的 所 有 权限 的 一 种 简写 。 

为 了 合法 地 执行 这 条 授权 语句 ， 执 行 它 的 用 户 必须 拥有 被 授予 的 权限 ， 而 且 这 些 权限 还 
必须 带 有 授权 选项 。 但 是 ， 授 权 者 可 以 拥有 比 授 出 的 权限 更 通用 的 权限 ( 带 有 授权 选项 )。 例 
如 ， 表 Studio 的 INSERT (name) 权限 被 授 出 ， 同 时 授权 者 拥有 表 Studio 的 更 通用 的 带 有 授权 
选项 的 权限 INSERT 。 

例 10.3 用 户 janeway 是 MovieSchema 模 式 的 属 主 ， 该 模式 包括 表 


Movies(title, year, length, genre, studioName, producerC#) 
Studio(name, address, presC#) 


将 表 Studio 的 INSERT 和 SELECT 权限 以 及 表 Movies 的 SELECT 权限 授予 用 户 kirk 和 picard。 而 且 ， 
包括 了 这 些 权限 的 授权 选项 。 该 授权 语句 如 下 : 
GRANT SELECT, INSERT ON Studio TO kirk, picard 
WITH GRANT QPTION; 


GRANT SELECT ON Movies TO kirk, picard 
WITH GRANT OPTION; 


现在 ，picard 授 予 用 户 sisko 相 同 的 权限 ， 但 是 没有 授权 选项 。picard 执 行 的 语句 为 : 
GRANT SELECT, INSERT ON Studio TO sisko; 
GRANT SELECT ON Movies TO sisko; 
同样 ，Kirk 也 授予 sisko 图 10-1 所 需 的 最 少 权 限 ， 即 Studio 的 SELECT 和 INSERT(name ) 权 限 以 
及 Movies 的 SELECT 权限 。 语 句 为: 
GRANT SELECT ，INSERT(name) ON Studio TO sisko; 
GRANT SELECT ON Movies TO sisko; 
注意 ，sisko 从 两 个 不 同 用 户 处 接受 了 Movies 和 Studio 的 SELECT 权限 。 他 也 接受 了 两 次 Studio 
的 INSERT(name) 权 限 : 直接 从 kirk 处 获得 和 通过 从 picard 处 获得 的 更 广泛 的 INSERT 权 限 。 口 


10.1.5 授权 图 

由 于 授权 网 的 复杂 以 及 一 系列 授权 产生 的 重 亚 权限 ， 用 一 个 叫做 授权 图 (grant diagram ) 
的 图 表示 授权 是 有 意义 的 。SQL 系 统 维护 这 个 图 的 表示 ， 并 跟踪 权限 和 它们 的 起 始点 (以 防 
权限 被 收回 ， 见 10.1.6 节 ) 。 
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授权 图 的 节点 对 应 一 个 用 户 和 一 个 权限 。 要 注意 ， 执 行 语句 〈 如 在 关系 R 上 的 SELECT) 带 
或 者 不 带 授权 选项 是 不 同 的 权限 。 这 两 种 不 同 的 权限 必须 用 两 个 不 同 的 节点 表示 ， 哪 怕 它 们 
属于 同一 用 户 也 如 此 。 同 样 ， 一 个 用 户 可 以 拥有 两 个 权限 ， 与 另 一 个 相 比 ， 甚 中 一 个 更 加 通 
用 〈 如 在 R 上 的 SELECT 与 在 R_ (4) 上 的 SELECT)。 这 两 个 权限 同样 用 两 个 不 同 的 节点 表示 。 

如 果 用 户 U 将 权限 P 授 予 用 户 V， 这 个 授权 是 基于 U 拥 有 权限 CQ 〈(C 可 以 是 带 授 权 选 项 的 P， 或 
是 P 带 有 授权 选项 的 证 化 ) ， 于 是 从 节点 LO 到 节点 WP 可 以 画 一 条 弧 。 正 如 将 要 看 到 的 ， 图 中 的 
弧 被 删除 时 权限 将 会 丢失 。 这 正 是 为 什么 用 孤立 的 节点 表示 其 中 一 个 权限 包含 另 一 个 权限 的 一 
对 权限 ， 例 如 一 个 带 和 不 带 授权 选项 的 权限 。 如 果 较 强 的 权限 丢失 ， 次 强 的 权限 可 以 继续 保留 。 

例 10.4 图 10-2 显 示 了 例 10.3 的 一 系列 授权 语句 产生 的 授权 图 。 这 里 使 用 了 一 个 约定 : 用 
户 权 限 组 合 后 的 一 个 * 表 示 该 权限 带 有 授权 选项 。 而 且 ， 用 户 权限 组 合 之 后 的 ** 表 明了 该 权限 
来 自 正 在 讨论 的 数据 库 元 素 的 所 有 权 而 不 是 由 于 别处 的 权限 授予 。 在 10.1.6 节 讨论 收 权 时 将 证 
明 这 个 区 别 很 重要 。 被 标 两 个 星 的 权限 自动 包括 了 授权 选项 。 口 





Janeway aneway 


SELECT INSERT 
on Movie on Movie 


SELECT 
on Movie 


SELECT 
on Studig 


INSERT 
on Studio 





图 10-2 授权 图 


10.1.6 收 权 

被 授予 的 权限 可 以 随时 收回 。 事 实 上 ， 权 限 的 收回 可 能 要 求 级 联 (cascade)。 级 联 的 意思 
是 ， 当 收回 已 经 被 传递 给 其 他 用 户 的 带 授权 选项 的 权限 时 ， 可 能 也 要 收回 那些 被 此 授权 选项 
授予 的 权限 。 收 权 语 和 白 (revoke statement) 的 简单 形式 始 于 : 

REVOKE “权限 列表 > ON < 数据 库 元 素 》FROM < 用 户 列 表 > 
并 以 下 面 所 列 的 一 个 选项 结束 : 

1. CASCADE。 如 果 选 择 此 项 ， 那 么 当 收 回 指定 的 权限 时 ， 也 要 收回 那些 仅仅 (only) 由 于 
要 收回 的 权限 而 被 授予 的 权限 。 更 严格 地 说 ， 如 果 基 于 属于 用 户 U 的 权限 QC， 用 户 U 要 从 用 户 
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VY 处 收回 权限 忆 ， 那 么 在 授权 图 中 删 去 从 节点 ZWC 到 节点 WP 的 弧 。 现 在 ， 那 些 从 某 个 属 主 节 点 
(被 标 为 两 颗 星 的 节点 ) 不 能 到 达 的 节点 也 被 删 去 。 

2. RESTRICT。 在 这 种 情况 ， 如 果 前 一 项 描述 的 级 联 规则 由 于 要 收回 的 权限 被 传递 给 其 他 
人 而 造成 了 任何 权限 收回 ， 那 么 该 收 权 语句 将 不 被 执行 。 

允许 用 REVOKE GRANT OPTION FOR 代替 REVOKE， 这 种 情况 只 保留 自身 的 核心 权限 ， 但 是 
将 它们 授予 他 人 的 授权 选项 被 删除 。 这 样 将 不 得 不 修改 节点 、 重 定向 弧 或 创建 新 的 节点 来 反 
映 受 影响 的 用 户 的 变化 。REVOKE 的 形式 也 可 以 与 CASCADE 或 RESTRICT 结 合 使 用 。 

例 10.5 继续 讨论 例 10.3， 假 定 janeway 使 用 下 面 的 语句 收回 她 授予 picard 的 权限 : 

REVOKE SELECT, INSERT ON Studio FROM picard CASCADE.; 

REVOKE SELECT ON Movies FROM picard CASCADE; 

删除 图 10-2 中 从 janeway 权 限 到 picard 对 应 权限 的 弧 。 既 然 规 定 了 CASCADE， 还 要 看 一 下 
在 图 中 是 否 存在 从 标 为 双星 的 权限 (基于 属 主 的 权限 ) 不 能 到 达 的 权限 。 检 查 图 10-2， 可 以 
看 到 picard 的 权限 不 再 能 从 双星 节点 到 达 (如 果 还 有 另外 的 路 径 到 达 picard 节 点 ， 那 么 也 是 
可 以 到 达 )。sisko 对 于 Studio 的 INSERT 权 限 也 不 可 达 。 因 此 不 仅 从 图 中 删除 picard 的 权限 ， 
还 要 删除 sisko 的 INSERT 权 限 。 

注意 这 里 没有 删除 sisko 关 于 Movies 和 Studio 的 SELECT 权限 或 者 他 关于 Studio 的 
INSERT(name ) 权 限 ， 因 为 它们 都 可 以 通过 kirk 的 权限 从 janeway 基 于 属 主 的 权限 处 可 达 。 最 
后 的 授权 图 见 图 10-3。 口 
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图 10-3 删除 picard 权 限 后 的 授权 图 


例 10.6 用 抽象 的 例子 阐述 一 些微 妙 之 处 。 首 先 ， 当 删除 通用 权限 p 时 没有 删除 p 的 特例 。 
例如 ， 考 虑 下 面 一 系列 步骤 ， 用 户 U 是 关系 R 的 属 主 ， 将 关系 R 的 INSERT 权 限 授予 用 户 V， 而 且 
还 授予 了 R 的 INSERT(4) 权 限 。 
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步 又 经 由 操作 
1 U GRANT INSERT ON R TOV 
2 U GRANT INSERT(A) ON RTOV 
3 如 REVOKE INSERT ON R FROM V RESTRICT 


当 U 从 V 中 删除 INSERT 权 限时 ，INSERT(4) 权 限 仍 被 保留 。 第 二 步 和 第 三 步 之 后 的 授权 图 
见 图 10-4。 





a) 第 二 步 之 后 


图 10-4 收回 通用 权限 保留 特定 权限 


注意 ,第 二 步 之 后 ， 用 户 V 拥 有 两 个 相似 但 不 同 的 权限 的 独立 节点 。 而 且 第 三 步 的 
RESTRICT 选 项 并 没有 阻止 收 权 ， 因 为 Y 没 有 将 这 个 选项 授予 别人 。 事 实 上 ，Y 不 可 能 授 出 任何 
权限 ， 因 为 V 得 到 它们 时 没有 授权 选项 。 口 

例 10.7 现在 考虑 类 似 的 例子 ，U 授 予 V 带 授权 选项 的 权限 p*， 接 着 只 收回 授权 选项 。 假 
定 U 的 授权 是 基于 它 的 权限 gq*。 本 例 中 ， 必 须 用 一 条 从 U/q* 到 Vip 的 弧 替 换 从 U/lgq* 到 Vip* 的 弧 ， 
即 相同 的 权限 不 带 授 权 选 项 。 如 果 疫 有 节点 WP， 则 必须 创建 该 节点 。 在 正常 的 环境 中 ， 节 点 
WPp* 变 得 不 可 达 ， 并 且 任 何 Y 关 于 p 的 授权 均 不 可 达 。 但 是 ，V 可 能 被 0 之 外 的 用 户 授予 p* ， 在 
这 种 情况 下 市 点 Vip* 仍 然 可 达 。 


步骤 顺序 如 下 ; 
步 嗓 经 由 操作 
1 U GRANT p TO V WITH GRANT OPTION 
2 V GRANT p TOW 
3 U REVOKE GRANT OPTION FOR p FROM V CASCADE 


第 (1) 步 ，U 授 予 V 带 授权 选项 的 权限 p。 第 (2) 步 ，V 使 用 授权 选项 将 p 授 予 W。 此 时 授权 图 


如 图 10-5a 所 示 。 


a) 第 二 步 之 后 b) 第 三 步 之 后 
图 10-5 收回 授权 选项 保留 基本 权限 
接着 第 (3) 步 ， 0 从 V 处 收回 权限 p 的 授权 选项 ,但 是 没有 收回 权限 本 身 。 因 为 没有 节点 VIp， 
所 以 创建 一 个 。 从 U/p** 到 V/p* 的 弧 被 删除 并 被 从 U/p** 到 V/p 的 弧 替 换 。 
现在 ， 节 点 Vip* 和 Wi/p 从 任何 ** 节 点 都 不 可 达 ， 因 此 从 图 中 删除 这 些 节 点 。 最 后 的 授权 图 
见 图 10-5b。 口 
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10.1.7 习题 
习题 10.1.1 指出 执行 下 列 查询 需要 何 种 权限 。 对 于 每 种 情况 ， 说 出 其 满足 的 最 特别 的 权限 以 及 一 般 性 
a) 图 6-5 的 查询 
b) 图 6-7 的 查询 
c) 图 6-15 的 插入 
d) 例 6.37 的 删除 
e) 例 6.39 的 修改 
f) 图 7-3 中 基于 元 组 的 检查 
g) 例 7.11 的 断言 
习题 10.1.2 给 出 图 10-6 中 操作 序列 步骤 (4) 至 (0) 每 一 步 执行 以 后 的 授权 图 。 假 设 4 是 权限 p 所 涉 关系 的 属 主 。 


步 又 经 由 操作 
1 A GRANT p TO B WITH GRANT OPTION 
2 A GRANT p TOO 
3 B GRANT p TO D WITH GRANT OPTION 
4 D GRANT p T0 B, 0O, E WITH GRANT OPTION 
5 B REVOKE p FROM D CASCADE 
6 A REVOKE p FROM C CASCADE 


图 10-6 习题 10.1.2 的 操作 序列 


习题 10.1.3 如 图 10-7 所 示 ， 给 出 步骤 (5) 和 (6) 以 后 的 授权 图 。 假 设 A 是 权限 p 所 涉 关系 的 属 主 。 


步 又 操作 


GRANT p TO B, E WITH GRANT OPTION 

GRANT p TO C WITH GRANT OPTION 

GRANT p TO D WITH GRANT OPTION 

GRANT p TO C 

GRANT p TO D WITH GRANT OPTION 

REVOKE GRANT OPTION FOR p FROM B CASCADE 


洪 
卫 


DarewLr 
ENNODS 


图 10-7 习题 10.1.3 的 操作 序列 
! 习 题 10.1.4 给 出 经 过 以 下 步骤 以 后 最 终 的 授权 图 ， 假设 A 是 权限 p 所 涉 关系 的 属 主 。 


步骤 经 由 操作 
1 4 GRANT p TO B WITH GRANT OPTION 
2 B GRANT p TO B WITH GRANT OPTION 
3 4 REVOKE p FROM B CASCADE 


10.2 SQL 中 的 递归 


SQL-99 标 准 包含 了 对 递归 规则 的 规定 。 尽 管 这 个 特征 并 不 是 所 有 DBMS 都 希望 实现 的 
“核心 ”SQL-99 标 准 的 一 部 分 ， 但 至 少 有 一 个 重要 的 系统 一 一 也 M 的 DB2 一 一 实现 了 SQL-99 
的 建议 ， 本 节 将 描述 该 建议 。 

10.2.1 在 SQL 中 定义 递归 关系 

SQL 中 的 WITH 语句 允许 定义 递归 或 非 递 归 的 临时 关系 。 为 定义 一 个 递归 关系 ， 可 在 WITH 

语句 本 身 使 用 该 关系 。 一 个 WITH 语句 的 简单 形式 是 : 
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WITH R AS <R 的 定义 > < 包含 R 的 查询 > 
也 就 是 说 ， 先 定义 一 个 临时 关系 名 为 KR， 接着 在 某 些 查 询 中 使 用 R。 临 时 关系 只 能 在 WITH 语 
名 的 查询 中 有 效 。 ee 

更 一 般 地 ， 可 以 在 WITH 后 定义 若干 关系 ， 定 [RECURSIVE] Ri AS <definition of Ri>, 
义 间 用 逗号 分 开 。 这 些 定义 都 可 以 是 递归 的 。 定 [RECURSIVE] R2 AS <definition of R»>, 
义 过 的 关系 还 可 以 是 相互 递归 的 ， 即 每 个 关系 可 [RECURSIVE] R, AS <definition of R > 
以 定义 在 其 他 关系 中 ， 黄 至 可 以 包含 它 自身 。 然 <query involving Ri, Ro,..., R», > 
而 ， 任 何 一 个 在 递归 中 出 现 的 关系 之 前 都 必须 有 
关键 词 RECURSIVE。 因 此 ，WITH 语 名 的 一 个 更 一 般 。 图 10-8 WITH 语句 定义 几 个 临时 关系 的 形式 
的 形式 如 图 10-8 所 示 。 

例 10.8 许多 关于 递归 用 法 的 例子 可 以 在 图 的 路 径 的 研究 中 发 现 。 图 10-9 示 意 的 是 一 个 表 
示 两 个 假定 的 航空 公司 Untried 航 空 公 司 (Untried Airlines，UA) 和 Arcane 航 空 公司 
(Arcane Airlines，AA) 一 一 在 卓 金山、 丹佛、 达拉斯、 芝加哥 及 纽约 等 城市 之 间 的 航线 图 。 
图 的 数据 可 以 用 关系 

Flights(airline, frm, to, departs, arrives) 
表示 ， 表 中 的 一 些 元 组 如 图 10-9 所 示 。 


AA 1900-2200 
UA 1830-2130 








orine | Frm | to | departs | arvives | 
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图 10-9 航线 航班 图 图 10-10 关系 Flights 中 的 元 组 


该 例 中 可 以 间 的 最 简单 的 递归 问题 是 :“ 对 于 什么 样 的 城市 对 (x, y) ， 经 过 一 个 或 多 个 航 
班 可 以 从 城市 x 到 城市 y? ”在 用 递归 的 SQL 写 这 个 查询 之 前 ， 用 5.3 节 的 Datalog 规 则 表示 递归 
是 有 用 的 。 因 为 许多 涉及 递归 的 概念 用 Datalog 表 示 比 用 SQL 表示 要 简单 得 多 ， 所 以 你 可 能 希 
望 在 继续 学 习 之 前 复习 一 下 那 部 分 章节 的 术语 。 下 面 的 两 条 Datalog 规 则 描述 了 包含 这 些 城市 
对 的 关系 Reaches(x，y)。 

1. Reaches(x,y) 全 Flights(a,x,y,d,r) 

2. Reaches (x,y) + Reaches(x,2z) AND Reaches(z,y) 

第 一 条 规则 是 说 Reaches 包 含 从 第 一 个 到 第 二 个 有 直达 航班 的 城市 对 ， 在 这 条 规则 中 航线 
a、 起 飞 时 间 d 和 降落 时 间 r 是 任意 量 。 第 二 条 规则 是 说 如 果 能 从 城市 x 到 城市 <:， 并 且 能 从 z 到 城 
市 y， 那 么 也 可 以 从 x 到 y。 

计算 一 条 递归 关系 需要 反复 运用 Datalog 规 则 ， 从 假定 Reaches 中 没有 元 组 开始 。 从 规则 
(1) 开 始 得 到 Reaches 中 的 配对 : (SF, DEN)、(SF, DAL)、(DEN, CHI)、(DEN, DAL)、(DAL，, 
CHI)、(DAL，NY) 和 CHI，NY)。 这 就 是 图 10-9 中 弧 所 表示 的 七 个 配对 。 

在 下 一 循环 ， 应 用 递归 规则 (2) 将 弧 的 配对 合 在 一 起 ， 使 得 一 条 弧 的 头 是 另 一 条 绝 的 尾 。 
这 样 可 以 得 到 另外 的 配对 (SF，CHI)、(DEN,，NY) 和 (SF，NY)。 第 三 次 循环 将 所 有 的 一 条 
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线 和 两 条 弧 的 配对 加 以 合成 从 而 形成 四 条 弧 的 路 径 。 在 这 个 特定 的 图 中 ,没有 得 到 新 的 配对 。 
关系 Reaches 因 此 由 10 个 配对 (x，y) 组 成 ， 其 中 y 在 图 10-9 中 是 从 x 可 达 的 。 因 为 图 中 的 画 法 ， 
这 些 配 对 恰好 是 这 样 的 (x+，y)， 其 中 y 在 图 10-9 中 是 x 的 右边 。 

从 例 10.8 中 Reaches 的 两 条 Datalog 规 则 ， 可 以 开发 产生 Reaches 关 系 的 SQL 查询 。 这 个 
SQL 查询 将 Datalog 规 则 放 在 WITH 语句 中 ， 并 且 后 跟 一 个 查询 。 在 本 例 中 ， 期 望 的 结果 是 整个 
Reaches 关 系 ， 但 是 也 可 以 询问 一 些 关 于 Reaches 的 查询 ， 例 如 从 城市 Denver 可 到 达 的 城市 的 
集合 。 


1) WITH RECURSIVE Reaches (frm，to) AS 





图 10-11 给 出 了 怎样 用 SQL 查询 来 表示 (SELECT frm，to FROM Flights) 
Reaches。 第 (1) 行 ?1 入 Reaches 的 定义 ， 而 这 UNION 
个 关系 的 实际 定义 是 在 第 (2) 到 第 (6) 行 。 er pp 
这 个 定义 是 两 个 查询 的 并 ， 它 们 分 别 对 WHERE R1.to = R2.frm) 
应 于 定义 Reaches 的 两 条 规则 。 第 (2) 行 是 并 【SELECT ”0 Neaches; 
的 第 一 项 ， 对 应 第 一 个 或 基本 规则 。 它 表示 图 10-11 可 达 城 市 配对 的 递归 SQL 查 询 


对 于 F1ight 关 系 中 的 每 个 元 组 ， 第 二 和 第 三 
分 量 (frm 和 to 分 量 ) 是 Reaches 的 一 个 元 组 。 
相互 递归 
有 一 种 图 论 方 法 可 以 检查 两 个 关系 或 谓词 是 否 是 相互 递归 的 。 建 立 一 个 依赖 图 
(dependency graph)， 它 的 节点 对 应 关系 (如 果 使 用 Datalog 规 则 即 是 谓词 )。 如 果 关 系 巨 的 
定义 直接 依赖 于 关系 A 的 定义 ， 则 从 A 到 B 画 一 条 弧 。 如 果 是 用 Datalog， 则 指 A 出 现在 B 在 头 


部 的 规则 主体 中 。 在 SQL 中 ，A 一 般 是 在 一 条 FROM 子 名 中 B 定 义 中 的 菜 处 ， 可 能 是 在 子 查询 
中 。 如 果 有 一 个 环 包含 节点 R 和 5S， 那 么 R 和 5 是 相互 递归 的 (mutually recursive) 。 最 常见 的 
情况 是 一 个 从 R 到 及 的 循环 ， 表 明 R 递 归 地 依赖 于 它 自 己 。 





第 (4) 到 第 (6) 行 对 应 Reaches 定 义 中 的 规则 (2)， 即 递归 规则 。 规 则 (2) 中 Reaches 两 个 子 目 
标 在 FROM 子 句 中 由 Reaches 的 两 个 别名 R1 和 R2 表 示 。R1 的 第 一 个 分 量 对 应 规则 (2) 的 xz，R2 的 第 
二 个 分 量 对 应 y。 变 量 z 由 R1 的 第 二 个 分 量 和 R2 的 第 一 个 分 量 表示 ， 注 意 ， 这 些 分 量 在 第 (6) 行 
中 相等 。 

最 后 ， 第 (7) 行 描述 了 由 整个 查询 生成 的 关系 。 它 是 关系 Reaches 的 一 个 拷贝 。 用 另 一 种 
方法 ， 可 以 把 第 (7) 行 替换 成 一 个 更 为 复杂 的 查询 。 例 如 ， 

7) SELECT to FROM Reaches WHERE frm = 2DEN  ; 


会 产生 所 有 从 丹佛 (Denver) 可 到 达 的 城市 。 口 


10.2.2 有 问题 的 递归 SQL 表达 式 

SQL 的 递归 标准 不 允许 在 WITH 语句 写 任 意 相 互 递归 关系 的 集合 。 有 一 个 小 问题 ， 标 准 只 
需 线 性 (linear) 递归 支持 。 而 线性 递归 用 Datalog 术 语 是 说 没有 多 于 一 个 子 目 标的 规则 与 头 互 
相 递归 。 注 意 ， 在 例 10.8 中 规则 (2) 有 两 个 子 目 标 带 有 谓词 Reaches ， 它 们 与 头 是 互相 递归 的 
(谓词 总 是 与 其 本 身 互 相 递归 ， 参 见 互相 递归 说 明 框 )。 因 此 ， 从 技术 上 说 ，DBMS 可 以 拒绝 
执行 图 10-11 ， 而 且 是 符合 标准 的 。 


© 但 是 ， 可 以 用 F1ights 替 换 图 10-11 第 (5) 行 中 Reaches 的 任 一 使 用 ， 因 此 使 递归 线性 化 。 非 线性 递归 常常 可 
以 一 一 尽管 不 总 是 一 一 用 这 种 方式 被 线性 化 。 
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在 SQL 递归 上 还 有 一 个 更 为 重要 的 约束 。 如 果 违 反 约 束 将 导致 递归 不 能 被 查询 处 理 器 以 
任何 有 意义 的 方式 执行 。 作 为 一 个 合法 的 SQL 递归 ， 递 归 关 系 R 的 定义 仅仅 只 涉及 相互 递归 的 
关系 S (包括 R 自 身 ) 的 “单调 ”运用 。5 的 单调 (monotone) 运用 的 意思 是 ， 如 果 向 8 中 添加 
一 个 任意 的 元 组 ， 将 可 能 添加 一 个 或 多 个 R 的 元 组 ， 或 者 可 能 使 R 没 有 变化 ， 但 是 它 绝 不 能 引 
起 任何 元 组 从 R 中 删除 。 下 面 的 例子 显示 如 果 单 调 性 要 求 没有 被 满足 会 发 生 什么 。 

例 10.9 ”假设 R 是 一 元 关系 (一 个 属性 )， 其 唯一 元 组 是 (0)。R 在 下 面 的 Datalog 规 则 中 
被 用 作 一 个 EDB 关 系 。 

1. P(x) 一 R(x) AND NOT Q(x) 

2. O(x) ~ R(x) AND NOT P(x) 

非 正 式 地 讲 , 两 条 规则 说 明 R 中 的 一 个 元 素 x 或 者 在 P 中 或 者 在 0 中 , 但 不 会 同时 在 P 和 2@C 中 。 
注意 ，P 和 2@ 是 相互 递归 的 。 

开始 时 ， 假 定 P 和 @ 为 空 ， 应 用 一 次 规则 ， 得 到 P={(0)} 和 @C={(0)}, 即 (0) 是 在 两 个 IDB 关 
系 中 。 再 循环 一 次 ， 对 新 的 P 值 和 @C 值 应 用 规则 ， 会 发 现 现在 它们 均 为 空 。 这 个 循环 可 以 重复 
无 限 次 ， 但 是 总 是 不 能 集中 到 一 个 解 。 

事实 上 ，Datalog 规 则 有 两 个 “ 解 ”: 

DP={0)} Q=8% 

b)P= 8 © = {(0)} 

但 是 ， 没 有 理由 让 一 个 取代 另 一 个 ， 并 且 提 出 的 计算 递归 关系 的 简单 循环 从 不 集中 于 其 
中 一 个 。 因 此 ， 不 能 回答 诸如 “P (0) 是 否 为 真 ? ”的 这 类 简单 的 问题 。 

该 问题 并 不 限定 到 Datalog 。 该 例 的 两 个 Datalog 规 则 可 以 表示 为 递归 SQL。 图 10-12 给 出 
一 种 这 样 做 的 方法 。 该 SQL 没有 坚持 标准 ， 并 且 没 有 DBMS 会 执行 它 。 口 

例 10.9 中 的 问题 是 图 10-12 中 P 和 @ 的 定义 不 是 单调 的 。 例 如 ， 第 (2) 行 到 第 (5) 行 P 的 定义 ， 
这 里 P 依 赖 于 CQ， 它 是 相互 递归 的 ,但 是 给 8 添加 一 个 元 组 可 以 从 P 中 删 去 一 个 元 组 。 注 意 ， 如 
果 R = {(0)} 并 且 @ 为 室 ， 那 么 P = {(0)}。 但 是 ， 如 果 添 加 (0) 到 CO， 那 么 就 将 (0) 从 P 中 删 去 。 
因此 ， 在 0 中 P 的 定义 不 是 单调 的 ， 并 且 图 10-12 中 的 SQL 代 码 不 满足 标准 。 

例 10.10 聚集 也 可 以 导致 非 单调 性 。 假 设 有 按 如 下 条 件 定义 的 一 元 (一 个 属性 ) 关系 P 和 2: 

1. P 是 CO 和 EDB 关 系 R 的 并 。 

2.Q 有 一 个 元 组 ， 它 是 P 的 成 员 的 总 和 。 

可 以 用 一 个 WITH 语 名 表示 这 些 条 件 ， 尽 管 这 个 语句 违反 了 SQL 的 单调 性 要 求 。 图 10-13 给 
出 了 求 出 P 的 值 的 查询 。 


1) WITH 











2) RECURSIVE P(x) AS 

3) (SELECT * FROM R) 1) WITH 

4) EXCEPT RECURSIVE P(x) AS 

5) (SELECT * FROM Q) ， (SELECT * FROM BR) 


UNION 


6) RECURSIVE Q(x) AS (SELECT * FROM Q) ， 
7) (SELECT * FROM R) 

8) EXCEPT RECURSIVE Q(x) AS 

9) (SELECT * FROM P) SELECT SUM(x) FROM P 








10) SELECT * FROM P; 


8) SELECT * FROM P; 
图 10-12 用 非 单调 行为 查询 ， 在 SQL 中 是 非法 的 “图 10-13 涉及 聚集 的 非 单调 查询 ， 在 SQL 中 是 非法 的 
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假设 R 由 元 组 (12) 和 (34) 组 成 ， 且 PP 和 2@ 的 初始 值 都 为 空 。 图 10-14 汇 总 了 前 六 个 循环 中 计算 
出 的 值 。 在 一 次 循环 中 两 个 关系 都 由 前 一 循环 的 值 计 [Ra PP | | 
算出 来 。 于 是 ，P 在 第 一 循环 计算 出 的 值 与 R 是 一 样 的 ， 1 (C34)} 
而 Q 为 {NULL}， 因 为 在 第 (7) 行 中 使 用 了 P 原 有 的 空 值 。 | (| 
Se 2 | 3) | {2)(349,(46)} | {(46)} | 
RU {NULL} = {(12),.(34), NULL} 


fd (34), (92)} | {C92 
所 以 它 成 为 P 的 新 值 。P 的 原 值 是 { (12) , (34) }， 所 












< 一 | 一 
一 一 | 一 一 






9 
5 
{(138)} 
以 在 第 二 次 循环 2 = {(46)}。 也 就 是 说 ，46 等 于 12 与 。 ”图 10-14 对 非 单调 聚集 的 迭代 计算 
34 的 和 。 

在 第 三 次 循环 ， 从 第 (2) 到 第 (5) 行 得 到 P = {(12),(34),(46)}， 使 用 P 的 原 值 {(12),(34) ， 
NULL}， 由 第 (6) 到 第 (7) 行 O 再 次 为 {(46)}。 需 要 牢记 的 是 NULL 在 求 和 中 被 忽略 。 

在 第 四 次 循环 ，P 有 同样 的 值 {(12), (34), (46)}， 但 @ 的 值 为 {(92)}， 因 为 12+34+46=92。 
注意 ，@ 失 去 了 元 组 (46)， 尽 管 它 得 到 了 元 组 (92)。 也 就 是 说 ， 添 加 一 个 元 组 (46) 到 P 中 会 导致 
Q 中 一 个 元 组 (因为 巧合 是 同一 元 组 ) 被 删除 。 这 个 行为 具有 SQL 在 递归 定义 中 禁止 的 非 单 调 
性 ， 从 而 确认 图 10-13 中 的 查询 非法 。 一 般 来 说 ， 在 第 2i 个 循环 ，P 包 含 元 组 (12)，(34) 和 (46 盖 
46)， 而 Q 仅 包含 元 组 (46i)。 口 


10.2.3 习题 
习题 10.2.1 例 10.8 中 的 关系 
Flights(airline, frm, to, departs, arrives) 
中 的 起 飞 和 到 达 时 间 信 息 在 例子 中 没有 考虑 。 假 定 用 户 感 兴趣 的 不 仅 是 从 一 个 城市 到 达 另 一 个 城市 
是 否 可 能 ， 而 且 还 考虑 旅行 线路 是 否 合理 。 也 就 是 说 ， 当 选用 多 于 一 个 的 航班 时 ， 每 个 航班 必须 至 
少 在 下 一 个 航班 起 飞 前 一 个 小 时 到 达 。 这 里 可 以 假设 没有 旅行 会 超过 一 天 ， 于 是 没 必要 担心 接近 午 
夜 到 达 之 后 凑 晨 起 飞 的 情况 。 
a) 用 Datalog 方 法 写 出 该 递归 
b) 用 SQL 方法 写 出 该 递归 
! 习 题 10.2.2 例 10.8 中 用 frm 作 属性 名 。 为 什么 不 用 更 明确 的 名 字 from? 
习题 10.2.3 关系 
Sequel0f (movie, sequel) 
给 出 了 一 个 电影 的 直接 续集 ， 它 有 可 能 多 于 一 个 。 定 义 一 个 递归 关系 Fo110ow0n， 其 配对 (x, y) 表 示 电 
影 y 为 x* 的 续集 、 续 集 的 续集 或 者 如 此 不 断 重复 的 续集 。 
a) 以 递归 Datalog 规 则 写 出 Fo11ow0n 的 定义 。 
b) 以 SQL 递归 形式 写 出 Fo11ow0n 的 定义 。 
c) 写 出 一 个 递归 SQL 查询 ， 返 回 配对 (*, 7) 的 集合 ， 使 得 电影 ?是 电影 x 的 后 续 ， 但 不 是 续集 。 
d) 写 出 一 个 递归 SQL 查询 ， 返 回 配 对 (x, 7) 的 集合 ， 使 得 电影 ?是 电影 + 的 后 续 ， 但 既 不 是 续集 ， 也 不 
是 续集 的 续集 。 
!e) 写 出 一 个 递归 SQL 查询 ， 返 回 至 少 有 两 个 后 续 的 电影 x 的 集合 ， 注 意 两 个 后 续 可 以 都 是 续集 ， 而 
不 必 一 个 是 续集 ， 另 一 个 是 续集 的 续集 。 
由 写 出 一 个 递归 SQL 查询 ， 返 回 配对 (*, 7) 的 集合 ， 使 得 电影 ?是 电影 xz 的 后 续 ， 但 y 最 多 有 一 个 后 续 。 
习题 10.2.4 假设 有 关系 


Rel(class, rclass, mult) 
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它 描述 了 一 个 ODL 类 是 如 何 与 其 他 类 关联 的 。 上 有 具体 地 说 ， 如 果 有 一 个 从 类 c 到 类 d 的 关系 ， 那 么 这 个 
关系 拥有 元 组 (c, d, m)。 如 果 m =”mu1ti' ， 那 么 这 个 关系 是 多 值 的 ， 如果 m = ”single” ， 那 么 这 
个 关系 是 单 值 的 。 可 以 把 Re1 看 作 定义 一 张 图 ， 它 的 节点 是 类 。 当 且 仅 当 (c, d, m) 是 Re1 的 一 个 元 组 
时 ， 在 图 中 有 一 条 从 c 到 d 的 边 ， 标 记 为 几 。 写 出 一 个 递归 SQL 查询 ， 生 成 如 下 配对 (c, 四 的 集合 : 

a) 在 上 述 的 图 中 有 一 条 从 类 c 到 类 d 的 路 径 。 

b) 有 一 条 路 径 从 c 到 4， 该 路 径 上 的 每 条 弧 都 被 标记 为 single。 

!c) 有 一 条 路 径 从 c 到 4d， 该 路 径 上 至 少 有 一 条 弧 被 标记 为 mu1ti。 

d) 有 一 条 路 径 从 c 到 d， 但 没有 一 条 路 径 上 所 有 弧 都 被 标记 为 single。 

le) 有 一 条 路 径 从 c 到 4d， 该 路 径 上 的 弧 交 替 标 记 为 single 和 和 mu1ti。 

f) 有 路 径 从 c 到 d 和 从 d 到 c， 路 径 上 每 条 弧 都 被 标记 为 single。 


10.3 ”对象 关系 模型 


关系 模型 和 ODL 为 代表 的 面向 对 象 的 模型 是 两 个 重要 的 DBMS 模 型 。 很 长 时 间 以 来 ， 关 
系 模型 是 商业 DBMS 的 主流 。 在 20 世 纪 90 年 代 ， 面 向 对 和 象 模型 的 DBMS 有 了 一 定 的 发 展 ， 但 
从 来 没 能 在 数据 库 系统 市 场 上 从 关系 模型 中 赢得 更 多 的 市 场 份额 。 相 反 关 系 模型 的 数据 库 开 
发 商 把 许多 面向 对 象 模型 中 的 概念 融入 到 关系 模型 中 。 结 果 就 是 ， 许 多 过 去 叫做 关系 模型 的 
DBMS， 现在 被 称 为 是 对 象 关系 模型 的 DBMS 。 

这 一 将 扩展 抽象 关系 模型 以 结合 几 个 重要 的 对 象 关系 观点 ， 之 后 的 相关 章节 是 关于 
SQL 的 对 象 关 系 扩 展 。10.3.1 节 介绍 对 象 关系 概念 ，10.3.2 节 讨论 它 最 早 的 一 个 实现 〈 舱 套 关 
系 )， 对 象 关 系 中 的 ODL 类 型 的 引用 在 10.3.3 节 讨论 ，10.3.4 节 比较 对 象 关系 模型 与 纯 面向 对 
象 模 型 。 


10.3.1 从 关系 到 对 和 象 关系 

关系 的 基本 概念 没有 改变 ,但 在 加 入 了 以 下 的 特点 之 后 ， 关 系 模 型 就 被 扩展 成 为 对 象 关 
系 模 型 (Object-Relational model ) ， 

1. 属性 的 结构 类 型 (Structured type for attribute ) 。 对 象 关 系 模型 系统 不 再 把 属性 的 类 型 
限制 在 原子 类 型 ， 它 支持 一 个 与 ODL 相 似 的 类 型 系统 : 可 以 使 用 原子 类 型 和 类 型 构建 器 (如 
结构 、 集 合 和 包 等 ) 来 创建 类 型 。 其 中 特别 重要 的 类 型 是 结构 的 包 ， 这 种 类 型 本 质 上 是 一 个 
关系 ， 也 就 是 说 ， 一 个 元 组 的 一 个 分 量 值 可 能 就 是 完整 的 一 个 关系 ， 称 为 “ 修 套 关系 ”。 

2. 方 法 (method)。 与 ODL 或 其 他 面向 对 象 编程 系统 中 的 方法 有 相似 之 处 。 

3. 元 组 的 标识 符 (identifier for tuple) 。 在 对 象 关系 系统 中 ， 元 组 扮演 的 角色 就 是 面向 对 
象 系统 中 的 对 象 。 所 以 在 某 些 情 况 下 ， 让 每 个 元 组 都 有 一 个 能 与 其 他 元 组 甚至 是 与 所 有 分 量 
值 都 相同 的 元 组 区 别 开 来 的 唯一 ID 很 有 用 。 这 个 ID 就 像 ODL 中 的 对 象 标识 一 样 ， 对 于 用 户 而 
言 一 般 不 可 见 ， 不 过 在 对 象 关系 系统 中 的 某 些 特殊 情况 下 还 是 可 见 的 。 

4. 引用 (reference)。 纯 粹 的 关系 模型 系统 没有 引用 (指向 元 组 ) 的 概念 ， 而 对 象 关系 模 
型 的 系统 可 有 不 同 的 方式 使 用 引用 。 

下 一 节 ， 将 详细 阐述 并 举例 说 明 这 些 对 象 关 系 模型 系统 中 新 增 的 特点 。 


10.3.2” 肉 套 关系 
在 嵌 套 关系 模型 (nested-relational model) 中 ， 人 允许 非 原子 类 型 的 关系 属性 ， 典 型 例子 是 ， 
属性 类 型 可 以 是 一 个 关系 模式 。 这 样 ， 就 可 以 方便 地 递归 定义 属性 类 型 和 关系 类 型 (模式)。 
基础 : 属性 的 类 型 可 以 是 一 个 原子 类 型 (如 整 型 、 实 型 和 字符 串 型 等 等 ) 。 


268 种 二 部 分 关 夭 数据 亩 程序 硬 矿 


归纳 : 关系 的 类 型 可 以 是 任何 包含 一 个 或 者 多 个 合法 类 型 属性 的 名 字 的 模式 (schema)。 
此 外 ， 模 式 也 可 以 是 任何 属性 类 型 。 

在 下 文中 ， 在 不 影响 讨论 的 问题 时 ， 将 省 略 原 子 类 型 。 一 个 模式 属性 用 属性 名 和 用 圆 括 
号 括 起 来 的 属性 列表 来 表示 。 因 为 这 些 属性 拥有 自己 的 结构 ， 括 号 可 以 被 媒 套 任意 深度 。 

例 10.11 ”为 影星 设计 一 个 柑 套 的 关系 模式 ， 其 中 包含 了 一 个 属性 movies， 它 是 一 个 代表 
所 有 该 影星 参 演 的 电影 集合 的 关系 。Movies 的 关系 模式 包括 电影 的 tit1e、year 和 影片 的 长 
度 1ength。 关 系 Stars 的 模式 包括 name、address 和 birthdate， 以 及 movies 中 的 信息 。 另 外 ， 
address 属 性 是 一 个 包含 street 和 city 两 个 属性 的 关系 类 型 ， 可 以 在 这 个 关系 中 记录 影星 的 
多 个 地 址 。Stars 的 模式 可 以 设计 为 ; 

Stars(name, address(street, city), birthdate, 

movies(title, year, length)) 


图 10-15 给 出 了 柑 套 关系 Stars 的 一 个 例子 ， 其 中 有 两 个 元 组 ， 一 个 是 Carrie Fisher， 另 一 
个 是 Mark Hamill。 为 了 节省 空间 简写 了 元 组 的 分 量 值 ， 用 虚线 将 元 组 之 间 分 开 ， 仅仅 只 是 为 
了 阅读 方便 ， 没有 其 他 特别 的 意思 。 

| name | address | birhdae | moves | 


address 
EE 


Fisher 9/9/99 | | sine |year | length 
a Ga 


Star Wars| 1977| 124 
Empire 1980| 127 
Return |1983| 133 


Hamill 


Oak Star Wars| 1977| 124 
Empire 1980| 127 
Return 1983| 133 





图 10-15 一 个 关于 影星 以 及 他 (她 ) 出 演 的 电影 的 峰 套 关系 


在 Carrie Fisher 的 元 组 中 ， 可 以 看 到 她 的 名 字 是 原子 类 型 值 ， 接 下 来 是 address 分 量 值 。 
address 是 一 个 关系 ， 这 个 关系 有 两 个 属性 street 和 city， 并 有 两 个 元 组 ， 每 个 都 对 应 于 她 
的 一 个 住址 。 然 后 是 她 的 birthdate， 这 是 另 一 个 原子 类 型 值 。 最 后 是 movies 属 性 ， 它 的 类 
型 是 一 个 关系 ， 这 个 关系 有 tit1e、year 和 1ength 三 个 属性 ， 其 值 包含 了 Carrie Fisher 最 著名 
的 三 部 影片 。 

第 二 个 元 组 是 关于 Mark Hamil 的 ， 其 结构 与 上 一 个 元 组 相同 。 其 中 address 关 系 只 有 一 个 元 
组 ， 因 为 他 只 有 一 个 住址 。Mark Hamill 的 Movies 关 系 的 内 容 与 Carrie Fisher 的 movies 关 系 的 内 容 
很 像 ， 因 为 正巧 两 位 影星 的 代表 作 一 样 。 要 注意 的 是 ， 这 两 个 关系 (Movies) 是 元 组 的 不 同 分 
量 ， 只 不 过 它们 恰好 有 相同 的 值 ， 这 与 两 个 不 同 分 量 恰 好 有 相同 的 整数 值 124 的 情况 类 似 。 “” 口 


10.3.3 引用 
一 部 影片 (如 “Star Wars”) 可 能 在 艇 套 关 系 Stars 中 的 多 个 元 组 的 movies 关 系 中 出 现 ， 
这 将 导致 元 余 。 实 际 上 ， 例 10.11 中 的 模式 就 是 一 个 不 属于 BCNF 的 和 仍 套 关系 模式 。 但 是 ， 即 
便 分 解 Stars 关 系 也 无 法 避免 元 余 。 于 是 必须 设法 令 任何 电影 在 Movies 关 系 中 只 出 现 一 次 。 
要 解决 这 个 问题 ， 对 象 关系 模型 需要 提供 引用 元 组 (如 元 组 1 引用 元 组 ;， 而 不 是 直接 合并 
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t 和 s) 的 支持 。 因 此 需要 为 类 型 系统 增加 以 下 的 归纳 规则 : 一 个 属性 的 类 型 可 以 是 对 另外 一 个 
给 定 关系 模式 中 某 个 元 组 的 引用 。 

如 果 属 性 4 的 类 型 是 对 名 为 R 的 关系 的 单个 元 组 的 引用 ， 在 设计 模式 时 将 4 表示 为 A(*R)。 
注意 ， 这 种 情况 与 ODL 中 的 联系 相似 : 联系 名 为 4， 类 型 为 R。 也 就 是 说 ，4 属 性 被 连接 到 一 
个 R 类 型 的 对 象 。 类 似 地 ， 如 果 属 性 4 的 类 型 是 一 组 对 模式 R 的 元 组 的 引用 ， 将 它 表 示 为 A( {* 
R} )。 这 与 ODL 中 联系 A 的 类 型 是 Set<R> 的 情况 相似 。 

例 10.12 消除 图 10-15 中 元 余 的 一 种 有 效 方式 是 使 用 两 个 关系 : 一 个 用 于 影星 ， 另 一 个 用 
于 电影 。 在 这 个 例子 中 仅仅 使 用 关系 Movies，Movies 是 普通 关系 ， 其 模式 与 例 10.11 中 的 属性 
Movies 一 样 。 新 关系 Stars 的 模式 与 例 中 的 舱 套 关系 Stars 相 近 ， 只 是 其 Movies 属 性 类 型 是 一 
组 对 Movies 元 组 的 引用 。 于 是 ， 两 个 关系 的 模式 如 下 : 


Movies(title, year, length) 
Stars(name, address(street, city), birthdate, 
movies({*Movies})) 


图 10-15 的 数据 填 和 人 这 个 新 的 模式 ， 就 得 到 图 10-16 的 结果 。 注 意 ， 虽 然 有 许多 对 电影 的 引 
用 ,但 是 每 部 电影 只 有 一 个 元 组 ， 因 此 消除 了 例 10.11 模 式 中 的 元 余 。 
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图 10-16 引用 集合 作为 属性 的 值 


10.3.4 面向 对 象 与 对 象 关系 的 比较 

面向 对 象 的 数据 模型 (以 ODL 为 典型 ) 和 这 里 讨论 的 对 象 关 系 模型 极其 相似 ! 下 面 是 几 
个 显著 方面 的 比较 : 

对 象 与 元 组 

一 个 对 象 的 值 就 是 一 个 带 有 属性 和 联系 分 量 的 结构 ，ODL 中 没有 规定 联系 表示 方式 的 标 
准 ， 不 过 可 以 假设 对 象 之 间 的 连接 是 通过 某 些 指针 集合 建立 起 来 。 元 组 也 是 一 个 结构 ， 不 过 
在 传统 的 关系 模型 中 ， 它 只 包含 属性 。 联 系 必 须 通 过 另 一 个 关系 的 元 组 来 表示 (参见 4.5.2 节 )。 
但 是 对 象 关 系 模型 允许 元 组 中 包含 引用 集合 ， 同 样 也 允许 联系 直接 结合 进 表示 一 个 “对 象 ” 
(或 实体 ) 的 元 组 中 。 

方法 

对 象 关 系 模式 中 没有 讨论 方法 的 使 用 。 不 过 事实 上 ，SQL-99 标 准 以 及 面向 对 象 的 思想 的 
使 用 ， 都 使 得 对 象 关系 模型 和 ODL 一 样 ， 有 具有 为 任何 类 或 类 型 声明 和 定义 方法 的 能 力 。 

类 型 系统 

面向 对 象 和 对 象 关 系 模 型 的 类 型 系统 相当 相似 : 它们 都 是 在 基于 原子 类 型 基础 上 使 用 结 
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构 、 集 合 类 型 构建 器 来 创建 新 类 型 。 集 合 类 型 的 可 选 部 分 可 能 有 些 不 同 ， 但 所 有 变化 都 至 少 
包含 集合 和 包 。 而 且 ， 结 构 类 型 的 集合 〈 或 者 包 ) 在 两 个 模型 中 都 扮演 着 特殊 的 角色 ， 那 就 
是 它们 是 ODL 中 的 类 和 对 象 关 系 模型 中 的 关系 类 型 。 

引用 和 对 象 标识 

一 个 纯粹 的 面向 对 象 模型 使 用 一 个 完全 对 用 户 隐藏 的 对 象 标 识 ， 因 此 该 标识 不 可 见 并 且 
不 能 被 查询 到 。 对 象 关系 模型 允许 类 型 中 包含 引用 ， 所 以 ， 在 有 些 情况 下 用 户 可 以 见 到 这 些 
值 ， 甚 至 可 以 记 住 这些 值 以 便 在 以 后 使 用 。 这 种 情况 是 好 是 坏 ， 不 能 一 概 而 论 。 在 实际 中 ， 
两 个 模型 基本 上 没有 差别 。 

向 下 兼容 性 

既然 两 种 模型 的 差别 微乎其微 ， 那 么 为 什么 市 场 上 是 对 象 关 系 模型 而 不 是 纯粹 的 面向 对 
象 的 系统 占 主 导 地 位 呢 ? 原因 可 能 在 于 ， 当 关系 DBMS 发 展 为 对 象 关 系 DBMS 时 ， 开 发 商 总 是 
特别 注意 向 下 兼容 性 。 也 就 是 说 ， 系 统 的 新 版 本 仍然 支持 以 前 版 本 中 使 用 的 代码 ， 并 且 接 受 
同一 个 数据 库 模式 ， 而 用 户 并 不 关心 是 否 采用 了 任何 面向 对 象 的 特性 。 另 一 个 原因 还 在 于 ， 
将 一 个 系统 转化 为 纯 面 向 对 象 DBMS 的 工作 量 巨大 。 所 以 ， 尽 管 面向 对 象 系统 在 技术 上 更 有 
优势 ， 但 还 不 足以 使 开发 商 将 大 量 已 有 的 数据 库 转 换 到 纯粹 面向 对 象 数据 库 系统 上 。 


10.3.5 习题 

习题 10.3.1 ”使 用 代 套 关系 和 带 引 用 的 关系 的 概念 ， 设 计 包 含 以 下 信息 的 关系 。 对 于 每 种 情况 ， 判 断 
关系 中 应 当 包 括 哪些 属性 ， 请 注意 参考 电影 的 例子 。 同 时 指出 你 的 设计 有 无 元 余 ? 有 的 话 ， 应 当 如 
何 修改 来 避免 ? 
a) 电影 : 包括 通常 的 属性 ， 另 外 加 上 该 电影 的 影星 以 及 影星 的 通常 信息 。 
!b) 电影 公司 : 包括 电影 公司 制作 的 所 有 电影 ， 每 部 电影 中 的 所 有 影星 以 及 电影 、 影 星 和 电影 公司 的 

通常 信息 。 

c) 电影 和 电影 的 电影 公司 、 电 影 中 的 影星 以 及 各 自 的 通常 信息 。 

习题 10.3.2 ”用 本 节 的 对 象 关系 模型 表示 习题 4.1.1 中 的 银行 信息 。 要 求 可 以 方便 地 通过 顾客 的 元 组 得 
到 其 账号 ， 同 时 也 可 以 方便 地 通过 账号 的 元 组 来 找到 该 账号 的 户主 。 注 意 避 免 元 余 。 

! 习 题 10.3.3 ”如 果 习 题 10.3.2 中 的 数据 被 修改 ， 每 个 账号 只 能 有 一 个 户主 ( 像 习 题 4.1.2(a) 一 样 ) ， 那 么 
怎样 简化 你 在 习题 10.3.2 中 的 设计 ? 

! 习 题 10.3.4 用 对 象 关系 模型 实现 习题 4.1.3 中 的 队员 、 球 队 和 球迷 。 

! 习 题 10.3.5 用 对 象 关系 模型 实现 习题 4.1.6 中 的 家 谱 。 


10.4 SQL 中 的 用 户 定义 类 型 


现在 回头 看 看 SQL-99 是 怎么 把 10.3 节 中 的 多 种 面向 对 象 的 特点 结合 到 一 起 的 。 在 SQL 中 ， 
将 关系 模型 扩展 到 对 象 关 系 模 型 的 核心 是 用 户 定义 类 型 (user-defined type，UDT)。UDT 类 
型 有 两 种 截然 不 同 的 用 法 : 

1. UDT 类 型 可 以 是 一 个 表 的 类 型 。 

2. UDT 类 型 可 以 是 某 个 表 中 的 某 个 属性 的 类 型 。 
10.4.1 在 SQL 中 定义 类 型 

SQL-99 允 许 程 序 员 以 几 种 方式 定义 UDT， 最 简单 的 是 重 命名 现 有 类 型 。 


CREATE TYPE T AS < 基本 类 型 >， 


重 命名 一 个 基本 类 型 如 INTEGER。 其 目的 是 ， 为 了 避免 即使 数据 具有 相同 的 基本 类 型 ， 但 
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是 逻辑 上 不 应 比较 或 交换 的 数据 之 间 进 行 强制 比较 或 交换 所 引起 的 意外 错误 。 下 面 的 例子 会 
清楚 地 说 明 这 一 点 。 

例 10.13 在 电影 例子 中 ， 有 几 个 INTEGER 类 型 的 属性 ， 包 括 Movies 的 1ength、MovieExec 的 
cert# 和 Studio 的 presC#。 它 使 比较 cert# 的 值 与 presC# 的 值 变 得 有 意义 ， 甚 至 可 以 取 这 两 个 属 
性 中 的 一 个 值 并 将 它 存放 到 一 个 元 组 中 作为 其 他 属性 的 值 。 然 而 ， 比 较 电 影 长 度 与 电影 执行 证 
书 ， 或 者 从 Movies 元 组 中 获取 一 个 length 值 存放 到 MovieExec 元 组 的 cert# 属 性 中 是 无 意义 的 。 

如 果 创 建 类 型 ; 

CREATE TYPE CertType AS INTEGER,; 

CREATE TYPE LengthType AS INTEGER; 
那么 ， 在 它们 各 自 的 关系 声明 中 ， 可 以 声明 cert# 和 presC# 为 类 型 CertType 而 不 是 INTEGER， 
并 且 ， 在 Movies 的 声明 中 ， 可 以 声明 1ength 为 LengType 类 型 。 如 果 是 那样 的 话 ， 对 象 关系 
DBMS 将 会 阻止 一 个 类 型 值 与 另 一 个 类 型 值 进行 比较 ， 或 者 是 阻止 用 一 个 值 代 换 另 一 个 。 口 

SQL 中 UDT 声 明 的 更 强大 的 形式 与 ODL 中 类 的 声明 相似 〈 稍 有 一 些 差 异 ) 。 首 先 ， 在 表 定 
义 中 使 用 用 户 定义 类 型 作为 键 声明 是 表 声 明 的 一 部 分 ， 而 不 是 类 型 定义 。 也 就 是 说 ， 很 多 SQL 
关系 可 以 被 声明 为 拥有 相同 的 UDT， 但 是 键 和 其 他 的 约束 不 同 。 其 次 ， 在 SQL 中 ， 不 把 联系 看 
成 是 特征 。 联 系 可 以 用 一 个 独立 的 关系 表示 ， 就 像 4.10.5 节 中 讨论 的 一 样 ， 或 者 像 10.4.5 节 中 提 


到 的 通过 引用 来 表示 。UDT 的 定义 格式 为 : CREATE TYPE AddressType AS ( 


CREATE TYPE T AS (< 属性 声明 >) ; street CHAR(50), 


例 10.14 图 10-17 给 出 两 个 UDT: AddressType 和 ge eisy CHAR(C20) 


StarType。AddressType 类 型 的 元 组 有 两 个 分 量 ， 其 


属性 是 street 和 city。 这 两 个 分 量 的 类 型 是 长 度 分 别 “| CREATE TYPE StarType AS ( 
name CHAR(30) ， 





为 30 和 20 的 字符 串 。StarType 类 型 的 元 组 同样 有 两 个 address AddressType 

分 量 。 第 一 个 分 量 的 属性 是 name ， 其 类 型 为 30 个 字符 ); 

的 字符 串 ， 第 二 个 分 量 的 属性 是 address， 它 本 身 的 图 10-17 两 个 类 型 定义 

类 型 就 是 一 个 AddressType 的 UDT 类 型 ， 也 就 是 一 个 

含有 street 和 city 分 量 的 元 组 。 口 


10.4.2 用 户 定义 类 型 中 的 方法 声明 

方法 的 声明 同 9.4.1 节 中 介绍 的 PSM 中 的 函数 类 似 ， 但 方法 没有 与 PSM 中 过 程 类 似 的 东西 。 
也 就 是 说 ， 每 个 方法 都 返回 某 种 类 型 的 一 个 值 。 在 PSM 中 函数 的 声明 和 定义 是 组 合 在 一 起 的 ， 
而 方法 既 需要 一 个 满足 用 CREATE TYPE 语 句 定义 的 带 括号 属性 列表 的 声明 ， 又 需要 有 一 个 用 
CREATE METHOD 语 名 说 明 的 单独 的 定义 。 方 法 的 实际 代码 不 必 是 PSM， 尽 管 可 能 是 这 样 。 例 
如 ， 方 法 体 可 能 是 利用 JDBC 的 JAVA 编 写 ， 用 来 访问 数据 库 。 

方法 的 声明 类 似 于 PSM 的 函数 声明 ， 只 要 用 关键 字 METH0D 代 替 关 键 字 CREATE FUNCTION 
即 可 。 但 是 典型 的 SQL 方法 都 没有 参数 ， 方 法 都 作用 在 表 的 行 上 面 ， 就 像 ODL 的 方法 作用 在 
对 象 上 一 样 。 在 方法 的 定义 中 ， 如 果 需 要 ，SELF 可 表示 该 元 组 本 身 。 

例 10.15 假设 在 图 10-17 中 ， 类 型 AddressType 的 定义 中 增加 一 个 方法 houseNumber， 这 
个 方法 在 住址 的 street 分 量 中 取 房 屋 地 址 的 部 分 数据 。 例 如 ， 如 果 street 分 量 是 “123 
Maple St.”， 那 么 ， 方 法 houseNumber 将 返回 “123”。 声 明 中 并 没有 给 出 houseNumber 实 际 上 
如 何 工 作 的 过 程 ， 其 细节 描述 是 在 定义 部 分 给 出 。 经 过 修改 的 类 型 定义 如 图 10-18 所 示 : 

定义 中 可 见 在 关键 字 METH0D 后 面 ， 紧 跟着 方法 的 名 字 和 一 个 用 括号 把 参数 和 参数 类 型 括 
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起 来 的 列表 。 在 这 个 例子 中 ， 方 法 没有 参数 ， 但 是 括号 仍然 是 必需 的 。 如 果 方 法 有 参数 ， 这 些 


参数 会 出 现在 列表 中 , 后 面 紧 跟 参数 的 类 型 。 CREATE TYPE AddressType AS ( 


例如 (a INT，b CHAR(5) )。 口 street CHAR(50), 
city CHAR(20) 
10.4.3 方法 定义 ) 





我 们 需要 单独 定义 方法 。 方 法 定义 的 METHOD houseNumber() RETURNS CHAR(10); 


一 个 简单 形式 是 : 图 10-18 向 UDT 中 添加 一 个 方法 声明 
CREATE METHOD “方法 名 称 ,参数 ,返回 类 型 > 
FOR <UDT 名 > 


《方法 体 > 
也 就 是 说 ， 定 义 过 方法 的 UDT 用 FOR 语 名 表示。 方法 定义 不 必 接 近 它 所 属 类 型 的 定义 (的 一 部 分 )。 
例 10.16 例如 , 例 10.15 中 的 方法 houseNumber 的 定义 如 图 10-19 所 示 。 这 里 ,省 略 了 方法 体 ， 
因为 从 字符 串 string 中 分 离 出 想 要 的 子 串 并 不 是 一 件 困难 的 事 ， 即 使 使 用 了 通用 宿主 语言 。 口 
CREATE METHOD houseNumber() RETURNS CHAR(10) 


FOR AddressType 
BEGIN 


END; 





图 10-19 定义 一 个 方法 


10.4.4 用 UDT 声 明 关系 

在 声明 了 一 个 类 型 之 后 ， 就 可 以 声明 一 个 或 多 个 关系 ， 这 些 关 系 中 元 组 的 类 型 就 是 刚 声明 过 
的 那个 类 型 。 关 系 声 明 的 形式 类 似 于 2.3.3 节 中 所 讲 的 那样 ， 但 是 ， 属 性 声明 从 被 括 起 来 的 元 素 列 表 
中 省 略 ， 或 用 OF 子 句 和 UDT 名 字 来 代替 。 也 就 是 说 ， 使 用 UDT 的 CREATE TABLE 语 名 的 可 选 形式 是 : 

CREATE TABLE “ 表 名 > 0F <UDT 名 > 

(< 元 素 列表 > ); 

圆 括号 括 起 来 的 元 素 列 表 可 以 包括 键 、 外 键 和 基于 元 组 的 约束 。 需 要 注意 的 是 ， 所 有 这 些 元 
素 是 为 一 个 特殊 表 声 明 ， 而 不 是 为 UDT 声 明 。 因 此 ， 几 张 表 可 以 用 相同 的 UDT 类 型 作为 它们 的 行 
类 型 ， 这 些 表 有 不 同 的 约束 ， 甚 至 不 同 的 键 。 如 果 表 中 没有 约束 或 键 声明 要 求 ， 则 不 需要 括号 。 

例 10.17 可 以 通过 下 面 的 方式 来 声明 MovieStar 是 一 个 元 组 类 型 为 starType 的 关系 : 

CREATE TABLE MovieStar OF StarType ( 

PRIMARY KEY (name) 

图 
这 样 就 使 得 表 MovieStar 拥 有 两 个 属性 : name 和 address。 第 一 个 属性 name 是 一 个 一 般 的 字符 
串 ， 而 第 二 个 属性 address 的 类 型 本 身 就 是 一 个 UDT， 即 AddressType 类 型 。 属 性 name 是 这 个 
关系 的 键 ， 因 此 ， 关 系 不 可 能 有 两 个 相同 名 字 的 元 组 。 口 


10.4.5 引用 

关于 面向 对 象 语 言 中 的 对 象 标识 ，SQL 是 通过 引用 (Reference) 的 概念 来 实现 。 一 个 表 
可 以 有 一 个 引用 列 (Reference column) 作为 它 的 元 组 “标识 "”。 如 果 这 个 表 有 主键 ， 该 列 可 
以 作为 该 表 的 主键 ， 或 者 ， 该 列 的 值 由 DBMS 产 生 和 维护 其 唯一 性 。 定 义 引 用 列 的 介绍 将 推 
迟到 10.4.6 节 ， 直 到 第 一 次 看 到 引用 类 型 如 何 被 使 用 为 止 。 
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为 了 引用 一 个 含有 引用 列 的 表 中 的 元 组 ， 必 须 有 一 个 属性 作为 该 引用 的 类 型 ， 即 另 一 个 
类 型 的 引用 。 如 果 7 是 一 个 UDT， 那 么 REF(7) 的 类 型 就 是 对 类 型 7 的 元 组 的 引用 。 此 外 ， 可 以 
为 引用 加 上 一 个 作用 域 (Scope) ， 该 作用 域 就 是 被 引用 元 组 所 在 的 关系 的 名 字 。 因 此 ， 属 性 4 
的 值 是 对 关系 R 中 元 组 的 引用 ， 而 R 是 一 个 UDT 类 型 7 的 表 ， 那 么 可 以 声明 为 : 

BEECT)ASO0PE CREATE TYPE StarType AS ( 

如 果 没 有 说 明 作 用 域 ， 那 么 该 引用 就 可 以 作 Dame CHAR(30) ， 
用 于 类 型 7 的 任何 一 个 关系 。 i pei ed SCOPE Movies 

例 10.18 在 MovieStar 对 象 中 记录 每 个 ; 
影星 的 一 部 最 佳 的 电影 。 假 定 已 经 声明 一 个 
适当 的 关系 Movies， 并 且 这 个 关系 的 类 型 是 
UDT 类 型 MovieType， 稍 后 在 图 10-21 中 定义 MovieType 和 Movies。 图 10-20 是 StarType 的 新 定 
义 ， 它 包含 了 一 个 属性 bestMovies 来 引用 一 部 电影 。 现 在 ， 如 果 关 系 MovieStar 被 定义 为 含 
有 图 10-20 中 的 UDT， 那 么 ， 每 个 影星 元 组 有 一 个 分 量 ， 这 个 分 量 引 用 Movies 元 组 一 一 影星 的 
最 佳 电 影 。 中 


10.4.6 为 表 生 成 对 象 标识 

为 了 引用 表 中 的 行 ， 比 如 例 10.18 中 的 Movies， 该 表 的 元 组 需要 一 个 “对 象 标识 符 ”"。 这 
样 的 表 称 为 可 引用 (Referenceable) 的 。 在 UDT 类 型 的 表 的 CREATE TABLE 语 名 中 ( 见 10.4.4 
节 )， 可 以 包括 如 下 形式 的 元 素 : 

REF IS 《< 属性 名 > <how generated> 

“属性 名 ”是 赋 给 该 列 的 名 字 ， 用 作 元 组 的 “对 和 象 标识 符 ”。 而 “how generated” 子 句 可 
以 是 下 面 两 个 中 的 一 个 : 

1. SYSTEM GENERATED， 表 示 DBMS 人 负责 对 该 列 中 的 每 一 个 元 组 维护 一 个 唯一 值 。 

2. DERIVED， 表 示 DBMS 将 使 用 该 关系 的 主键 为 该 列 产生 唯一 的 值 。 

例 10.19 ”图 10-21 说 明了 怎样 声明 UDT 





图 10-20 向 StarType 中 添加 一 个 最 佳 电 影 的 引用 





J ; i 1) CREATE TYPE MovieType AS ( 
类 型 WovieType 和 关系 Novles， 以 使 得 2) title CHAR(30), 
Movies 可 以 被 引用 。 第 (1) 到 第 (4) 行 是 对 这 year INTEGER, 
个 UDT 的 声明 ， 第 (5) 到 第 (7) 行 把 关系 EE 
Movies 定 义 为 这 种 UDT 类 型 。 注 意 ， 在 第 | 
(7) 行 声明 了 tit1e 和 year， 两 者 一 起 作为 关 - CREATE TABLE Movies OF MovieType ( 
1 REF IS movieID SYSTEM GENERATED, 

系 Movies 的 键 。 PRIMARY KEY (title, year) 

在 第 (6) 行 当中 可 以 看 到 ，Movies 的 ); 





“标识 (identity)” 列 的 名 字 是 movieID。 这 个 
属性 将 自动 成 为 title、year 以 及 genre 之 
后 Movies 的 第 四 个 属性 ,和 其 他 任何 属性 一 样 ， 该 属性 也 可 以 用 在 查询 中 。 

第 (0) 行 还 说 明 ， 每 当 一 个 新 的 元 组 插入 到 Movies 的 时 候 ，DBMS 都 负责 生成 一 个 movieID 
的 值 。 如 果 用 DRIVED 代 替 SYSTEM GENERATED， 那 么 在 产生 新 的 元 组 时 ， 系 统 将 从 该 元 组 的 主 
键 属 性 tit1e 和 year 的 值 计 算出 一 个 新 值 ， 把 它 赋 给 新 元 组 的 movieID。 口 

例 10.20 现在， 看 看 怎样 使 用 引用 来 表示 电影 和 影星 之 间 的 多 对 多 联系 。 以 前 ， 用 关系 
来 表示 这 种 联系 。 例 如 StarsIn， 它 包含 以 Movies 和 MovieStar 作 为 键 的 元 组 。 作 为 一 个 替换 ， 
重新 定义 StarsIn， 使 它 可 以 引用 这 两 个 关系 中 的 元 组 。 


图 10-21 创建 可 被 引用 的 表 





274 种 二 部 分 关系 数据 库 程 序 设 矿 


首先 ， 需 要 重新 定义 MovieStar， 使 它 成 为 一 个 可 引用 的 表 。 因 此 改 为 : 
CREATE TABLE MovieStar OF StarType ( 
REF IS starID SYSTEM GENERATED, 
PRIMARY KEY (name) 
天 
然后 ， 可 以 声明 关系 StarsIn 包 含 两 个 属性 ， 即 两 个 引用 ， 其 中 一 个 引用 电影 的 元 组 ， 男 
一 个 引用 影星 的 元 组 。 下 面 是 这 个 关系 的 直接 定义 : 
CREATE TABLE StarsIn ( 
star REF (StarType) SCOPE MovieStar, 
movie REF(MovieType) SCOPE Movies 
也 可 以 选择 男 一 个 方式 ， 定 义 一 个 上 述 的 UDT 类 型 ， 然 后 把 StarsIn 声 明成 这 个 类 型 的 表 。 口 


10.4.7 习题 

习题 10.4.1 对 于 电影 例子 中 每 个 关系 的 属性 选择 其 类 型 名 字 。 如 果 属 性 的 值 可 以 合理 地 比较 或 交换 则 
使 用 相同 的 UDT， 如 果 属 性 的 值 不 能 比较 或 交换 ， 则 使 用 不 同 的 UDT。 

习题 10.4.2 写 出 以 下 类 型 的 类 型 声明 : 
a) NameType， 包 含 姓 、 名 和 中 间 名 字 分 量 ， 还 有 一 个 头衔 。 
b) PersonType， 包 含 人 名 和 对 其 父亲 、 母 亲 对 象 的 引用 。 在 声明 中 必须 使 用 (a) 中 的 类 型 。 
c) MarriageType， 包 含 结婚 日 期 和 对 丈夫 、 妻 子 对 象 的 引用 。 

习题 10.4.3 ”在 适当 的 地 方 使 用 类 型 声明 和 引用 属性 ， 重 新 设计 习题 2.4.1 中 产品 数据 库 的 模式 。 特 别 
是 要 在 关系 PC、Laptop 和 Printer 中 ， 把 mode1 属 性 改 为 对 该 模型 Product 元 组 的 引用 。 

! 习 题 10.4.4 在 习题 10.4.3 中 , 假定 表 PC、Laptop 和 Printer 中 的 型 号 属性 是 对 表 Product 中 元 组 的 引用 。 
请 问 是 否 也 可 把 Product 中 的 mode1 属 性 改 为 对 该 类 型 产品 关系 元 组 的 引用 ?为 什么 ? 

习题 10.4.5 ”在 适当 的 地 方 使 用 类 型 声明 和 引用 属性 ， 重 新 设计 习题 2.4.3 中 战舰 数据 库 的 模式 。 找 出 
多 对 一 联系 ， 并 用 一 个 具有 引用 类 型 的 属性 来 表示 它们 。 


10.5 对 象 关系 数据 上 的 操作 


从 前 面 的 章 市 中 看 到 ， 所 有 正确 的 SQL 操 作 都 可 以 运用 在 用 UDT 声 明 的 表 或 含有 UDT 类 
型 属性 的 表 上 。 也 还 有 一 些 全 新 的 操作 ， 如 引用 跟随 。 但 是 ， 我 们 熟悉 的 某 些 操作 ， 特 别 是 
那些 访问 或 者 修改 UDT 类 型 的 列 的 操作 ， 将 涉及 新 的 语法 。 


10.5.1 引用 的 跟随 

假设 x 是 类 型 REF(7T) 的 一 个 值 ， 那 么 x 引用 类 型 7 的 某 个 元 组 :。 通 过 以 下 两 种 方法 ， 可 以 获 
得 元 组 :本 身 或 者 中 的 分 量 : 

1. 操作 符 “->” 本 质 上 和 C 语 言 中 的 这 种 操作 符 有 相同 的 含义 。 也 就 是 说 ， 如 果 x 是 对 元 
组 的 一 个 引用 ， 且 a 是 1 的 一 个 属性 ， 那 么 x->a 就 是 元 组 中 属性 a 的 值 。 

2. DEREF 操 作 符 作用 于 一 个 引用 ， 并 且 生 成 所 引用 的 元 组 。 

例 10.21 使 用 例 10.20 中 的 关系 StarsIn 查 找 Brad Pitt 主 演 的 电影 。 回 顾 一 下 ， 该 关系 模 
式 如 下 : 

StarsIn(star, movie) 


其 中 ，star 和 movie 分 别 是 对 MovieStar 和 Movies 元 组 的 引用 。 可 能 的 查询 如 下 : 
1) SELECT DEREF (movie) 
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2) FROM StarsIn 

3) WHERE star->name = ’Brad Pitt’; 

在 第 (3) 行 中 ， 表 达 式 star->name 生 成 MovieStar 元 组 中 的 name 分 量 的 一 个 值 ， 而 这 个 
MovieStar 元 组 是 被 任意 给 定 的 一 个 StarsIn 元 组 分 量 star 所 引用 。 因 此 ，WHERE 子 名 标识 这 
样 一 些 StarsIn 元 组 ， 它 们 的 分 量 star 都 是 对 Brad-Pitt 的 MovieStar 元 组 的 引用 。 第 (1) 行 则 生 
成 那些 相应 的 StarsIn 元 组 中 movie 分 量 所 引用 的 电影 元 组 。 所 有 这 三 个 属性 一 一 tit1e、 
year 和 genre 一 一 都 将 出 现在 输出 结果 中 。 

注意 ， 可 能 会 用 下 面 的 语句 代替 第 (1) 行 : 

1) SELECT movie 
但 是 ， 如 果 这 样 做 的 话 ,将 会 得 到 一 些 无 用 的 数据 。 这 些 数据 由 系统 产生 ， 被 用 作 这 些 元 组 
的 唯一 的 内 部 标识 符 。 在 被 引用 的 元 组 中 ， 不 会 看 到 这 些 信 息 。 口 


10.5.2 访问 UDT 类 型 的 元 组 分 量 

当 定 义 一 个 含有 UDT 类 型 的 关系 时 ， 必 须 把 元 组 看 作 是 单独 的 对 象 ， 而 不 能 看 作 是 以 
UDT 属 性 作为 分 量 的 列表 。 作 为 一 个 恰当 的 例子 ， 考 虑 图 10-21 中 声明 的 关系 Movies。 这 个 关 
系 有 一 个 UDT 类 型 MovieType ， 它 有 三 个 属性 : title、year 和 genre。 但 是 ，Movies 当 中 的 
元 组 :只 有 一 个 分 量 ， 而 不 是 三 个 。 这 个 分 量 就 是 这 个 对 象 本 身 。 

如 果 “ 深 入 ”到 这 个 对 象 内 部 ， 可 以 从 中 取得 类 型 MovieType 的 三 个 属性 的 值 ， 并 且 可 以 
使 用 该 类 型 定义 的 任何 方法 。 但 是 ， 必 须 正确 地 访问 这 些 属性 ， 因 为 它们 不 是 这 个 元 组 本 身 
的 属性 。 这 样 ，UDT 类 型 都 为 自己 的 每 一 个 属性 隐 含 地 定义 一 个 观测 方法 (Observer Method ) 。 
属性 x* 的 观测 方法 的 名 字 是 x()。 可 以 像 使 用 该 UDT 类 型 的 任何 其 他 方法 一 样 使 用 这 个 方法 ， 用 
点 号 把 它 接 到 计算 该 类 型 对 象 值 的 表达 式 后 面 。 因 此 ， 如 果 ! 是 类 型 7 的 变量 ，x* 是 7 的 一 个 属 
性 ， 则 tx0 就 是 代表 的 元 组 (对象 ) 中 x 的 值 。 

例 10.22 从 图 10-21 的 关系 Movies 中 找 出 电影 King Kong 的 年 份 。 一 种 解决 方案 是 : 

SELECT m.year() 

FROM Movies m 

WHERE m.title() = ’King Kong’; 
尽管 元 组 变量 m 没 必要 在 这 里 出 现 ,但 是 需要 一 个 变量 ， 它 的 值 是 类 型 MovieType 的 对 象 
关系 Movies 和 的 UDT。WHERE 子 句 的 条 件 表 达 式 把 常量 “King Kong” 与 m.title( ) 的 值 进行 比 
较 ， 后 者 是 类 型 MovieType 的 对 象 m 的 属性 title 的 观测 器 方法 。 同 样 地 ，SELECT 子 句 中 的 值 
用 m.year( ) 来 表示 ， 这 个 表达 式 把 属性 year 的 观测 器 方法 作用 到 对 象 m 上 。 口 

事实 上 ， 对 象 关 系 DBMS 不 用 方法 句法 从 对 象 提 取 属 性 ， 而 是 按 下 述 方法 去 掉 括 号 。 例 
如 ， 例 10.22 中 的 查询 可 以 写 为 : 


SELECT m.year 
FROM Movies m 
WHERE m.title = :King Kong’; 


但 是 ， 元 组 变量 疡 仍然 是 必需 的 。 

点 操作 符 可 以 被 用 来 应 用 方法 ， 同 时 也 可 以 在 对 象 中 查找 属性 值 。 这 些 方法 要 有 括号 ， 
即使 它们 没有 参数 。 

例 10.23 ”假定 关系 MovieStar 已 经 声明 有 UDT 类 型 StarType， 需 要 回顾 例 10.14 中 含有 类 
型 AddressType 的 属性 address。 该 类 型 有 一 个 方法 houseNumber ( ) , 它 从 类 型 为 AddressType 
( 见 例 10.15) 的 对 象 中 抽取 房子 号 码 。 那 么 查询 是 : 
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SELECT MAX(s ,address ,houseNumber()) 
FROM MovieStar s 


从 StarType 类 型 的 对 象 * 中 抽取 address 人 分量， 然后 对 那个 AddressType 对 象 应 用 
houseNumber( ) 方 法 ， 结 果 返 回 任 一 影星 的 最 大 的 房子 号 码 。 口 


10.5.3 生成 器 和 转换 器 函数 

为 了 生成 符合 UDT 的 数据 ， 或 者 改变 UDT 对 象 的 分 量 ， 可 以 使 用 两 类 方法 。 每 当 一 个 
UDT 被 定义 的 时 候 ， 这 些 方 法 连同 观测 器 方法 一 起 会 被 自动 地 创建 。 这 两 类 方法 是 : 

1. 生成 器 方法 (Generator Method) 。 这 个 方法 的 名 字 就 是 类 型 名 ， 并 且 没 有 参数 。 它 还 
有 一 个 特别 的 性 质 是 ,其 调用 不 需要 作用 到 某 个 具体 的 对 象 上 。 也 就 是 说 ， 如 果 7 是 一 个 UDT， 
那么 TO 将 返回 一 个 类 型 为 7 的 对 象 ， 而 该 对 象 的 各 个 分 量 没 有 值 。 

2. 转换 器 方法 (Mutator Method)。UDT 类 型 7 的 每 个 属性 x 都 有 一 个 转换 器 方法 x(v)。 当 
这 个 方法 作用 到 类 型 7 的 一 个 对 象 上 时 ， 它 把 该 对 象 的 属性 x 的 值 改 为 v。 注 意 ， 属 性 的 转换 器 
方法 和 观测 絮 方 法 的 名 字 都 是 该 属性 的 名 字 ， 区 别 仅 在 于 转换 器 方法 有 一 个 参数 。 

例 10.24 ” 写 一 段 PSM 过 程 ， 取 街道 、 城 市 和 名 字 作 为 参数 ， 调 用 正确 的 生成 器 图 数 和 转 
换 器 函数 来 构造 一 个 对 象 ， 并 把 它 插入 









CREATE PROCEDURE InsertStar( 


到 关系 MovieStar (依照 例 10.17， 类 型 IN s 0 
3 IN c CHAR(20) ， 
是 StarType) 中 。 回 顾 一 下 例 10.14， 类 4) IN n CHAR(30) 


) 
5) DECLARE newAddr AddressType; 
DECLARE newStar StarType; 


型 StarType 中 的 对 象 有 一 个 字符 串 类 型 
的 分 量 name， 但 分 量 address 本 身 就 是 类 
型 AddressType 的 一 个 对 象 。 过 程 









BEGIN 


InsertStar 如 图 10-22 所 示 。 






7) SET newAddr = AddressType(); 
第 (2) 到 第 (4) 行 3 引入 参数 s、c 和 nn， 8) SET newStar = rrr 
， 网 9) Addr .st t 
分 别提 供 街道 、 城 市 和 影星 名 字 的 值 。 | 10) pewadar city(c); 
第 (5) 和 第 (6) 行 声明 了 两 个 局 部 变量 ， 两 “| 11) newStar.nane(n); 
12) newStar.address(newAddr); 






者 的 类 型 都 是 关系 MovieStar 中 的 对 象 
所 涉及 的 UDT 类 型 。 在 第 (7) 和 第 (8) 行 ， 
创建 了 这 两 个 类 型 的 空 对 象 。 

第 (9) 和 第 (10) 行 从 过 程 的 参数 中 取 
得 两 个 真正 的 值 ， 并 赋 给 对 象 newAddr ， 这 些 参数 提供 街道 和 城市 名 。 类 似 地 ， 第 (11) 行 把 参 
数 n 作 为 对 象 newStar 中 分 量 name 的 值 。 而 第 (12) 行 把 整个 newAddr 对 象 作为 newStar 中 分 量 
address 的 值 。 最 后 ， 第 (13) 行 把 构造 好 的 对 象 插 入 到 关系 MovieStar 中 。 注 意 ， 与 通常 一 样 ， 
一 个 以 UDT 作 为 自己 类 型 的 关系 只 有 一 个 单独 的 分 量 ， 即 使 这 个 分 量 有 多 个 属性 (比如 这 个 
例子 中 的 name 和 address) 也 是 如 此 。 

为 了 将 一 个 影星 插入 MovieStar 中 ， 可 以 调用 InsertStar 过 程 。 

CALL InsertStar(’345 Spruce St.’, ’Glendale’, ’Gwyneth Paltrow’); 
是 一 个 例子 。 口 

如 果 DBMS 提 供 或 者 自己 创建 一 个 生成 器 函数 ， 使 该 生成 器 函数 以 UDT 属 性 作为 输入 ， 
并 返回 一 个 合适 的 对 象 ， 那 么 把 对 象 插 入 含有 UDT 的 关系 中 将 变 得 更 简单 。 例如 ; 如 果 已 经 
有 函数 AddressType(s,c) 和 函数 5tarType(n,a)， 它 们 返回 指定 类 型 的 对 象 ， 那 么 就 可 以 在 
例 10.24 的 末尾 使 用 如 下 的 INSERT 语 名 进行 插入 操作 : 


INSERT INTO MovieStar VALUES (newStar); 






图 10-22 创建 和 存储 StarType 对 象 
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INSERT INTO MovieStar VALUES( 
StarType(’Gwyneth Paltrow’, 
AddressType(’345 Spruce St.’, ’Glendale’))); 


10.5.4 UDT 上 联系 的 排序 
某 些 UDT 类 型 的 对 象 本 质 上 是 抽象 的 。 在 这 个 意义 上 ， 没 法 对 同一 个 UDT 的 两 个 对 象 进 
行 比较 ， 不管 是 测试 它们 是 否 “ 相 等 ”, 还 是 测试 其 中 一 个 比 另 一 个 小 。 即 使 两 个 对 象 的 所 有 
分 量 都 相同 ， 也 不 会 认为 这 两 个 对 象 相 等 ， 除 非 告诉 系统 把 它们 看 作 相 等 。 类 似 地 ， 也 无 法 
对 一 个 含有 UDT 的 关系 的 元 组 进行 排序 ， 除 非 定 义 一 个 函数 ， 指 明 该 UDT 的 两 个 对 人 象 中 哪 一 

个 光 于 男 一 个 。 

然而 ，SQL 中 有 许多 操作 需要 相等 关系 测试 ， 或 同时 需要 相等 关系 测试 和 小 于 关系 测试 。 
例如 ， 如 果 不 能 指出 两 个 元 组 是 否 相 等 ， 那 么 将 无 法 排除 重复 的 元 组 。 如 果 无 法 对 一 个 UDT 
做 相等 关系 测试 ， 那 么 就 不 能 对 一 个 UDT 类 型 的 属性 进行 分 组 。 除 非 能 对 两 个 元 素 进 行 比 较 ， 
否则 在 WHERE 子 句 中 不 能 使 用 ORDER BY 子 句 或 比较 符 “< " 。 

为 了 说 明 一 个 排序 或 比较 操作 ，SQL 人 允许 用 CREATE ORDERIN6G 语 名 来 声明 任 一 UDT。 其 中 
有 许多 种 声明 的 格式 ， 这 里 仅 列 出 最 简单 的 两 种 : 

1. 语句 

CREATE ORDERING FOR T EQUALS ONLY BY STATE; 
指明 UDT 类 型 7 的 两 个 成 员 ， 如 果 它 们 相应 的 分 量 一 样 ， 那 么 就 可 以 认为 相等 。 这 里 在 UDT 类 
型 7 的 对 象 上 没有 定义 “< ”操作 。 

2. 下 列 语句 

CREATE ORDERING FOR 7 

ORDERING FULL BY RELATIVE WITH FF; 
指明 了 6 种 比较 (<、<=、>、>=、= 和 <>) 都 可 以 作用 到 UDT 类 型 7 的 对 象 上 。 为 了 说 明 对 象 x 
和 ;是 怎样 比较 的 ， 把 函数 F 作 用 到 这 些 对 象 上 。 函 数 F 的 实现 必须 这 样 写 :如果 xi < x;， 那 么 
Fri,x)<0 而 Fl) = 0 表示 xl = Xz; Ex) > 0 表示 > x;。 如 果 将 ORDERING ”FULL 换 为 
EQUALS ONLY， 那 么 F (xi, x2) = 0 表示 x1 = 总， 而 F nz) 的 其 他 值 则 表示 xi 去 xw。 在 这 种 情况 
下 ， 不 能 用 “<” 符 号 进行 比较 。 

例 10.25 考虑 例 10.14 中 UDT 类 型 starType 的 一 个 可 能 的 排序 。 如 果 仅 要 进行 相等 操作 ， 
可 以 如 下 声明 : 

CREATE ORDERING FOR StarType EQUALS ONLY BY STATE; 

该 语句 指明 如 果 两 个 starType 类 型 的 对 象 相等 ， 当 且 仅 当 它 们 的 名 字 是 相同 的 字符 串 ， 
而 且 地 址 是 相同 的 UDT 类 型 AddressType 对 象 。 

这 里 的 问题 在 于 ， 除 非 定义 了 AddressType 的 排序 ， 否 则 该 类 的 对 象 甚 至 不 能 等 于 自身 。 
因此 ， 至 少 需要 对 于 AddressType 的 相等 测试 。 一 个 简单 的 做 法 是 : 声明 两 个 AddressType 对 
象 相等 ， 当 且 仅 当 这 两 个 对 象 的 street 和 city 是 相同 的 。 做 法 如 下 : 

CREATE ORDERING FOR AddressType EQUALS ONLY BY STATE; 

另 一 种 做 法 是 : 也 可 以 定义 AddressType 对 象 的 一 个 完整 排序 。 一 个 合理 的 地 址 排序 是 ， 
先 以 城市 的 字母 序 进 行 排序 ， 有 相同 城市 的 地 址 再 通过 街道 名 的 字母 序 进行 排序 。 为 此 ， 必 
须 定义 一 个 函数 AddrLEG6， 该 图 数 以 两 个 AddressType 对 象 作 为 参数 ， 比 较 后 返回 一 个 负 值 、 
零 或 正 值 ， 分 别 表示 第 一 个 对 象 小 于 、 等 于 或 大 于 第 二 个 对 象 。 可 以 做 如 下 声明 
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CREATE ORDERING FOR AddressType 
ORDER FULL BY RELATIVE WITH AddrLEG; 


图 10-23 给 出 了 函数 AddrLE6。 注 意 ， 如 果 可 以 到 达 第 (7) 行 ， 那 么 两 个 city 分 量 相 同 ， 因 
此 可 以 接着 比较 street 分 量 。 同 样 地 ， 如 果 到 达 第 (9) 行 ， 那 么 剩 下 的 唯一 可 能 就 是 两 个 city 
相同 ， 而 且 在 字母 序 上 ， 第 一 个 street 排 在 第 二 个 的 前 面 。 口 
CREATE FUNCTION AddrLEG( 
xl AddressType, 


X2 AddressType 
) RETURNS INTEGER 


IF xl.city() < x2.city() THEN RETURN(-1) 

ELSEIF xi.city() > x2.city() THEN RETURN(1) 
ELSEIF xl.street() < x2.street() THEN RETURN(-1) 
ELSEIF xl,street() = x2.street() THEN RETURN (0) 
ELSE RETURN(1) 

END IF; 





图 10-23 地 址 对 象 的 一 个 比较 函数 


事实 上 ， 每 个 商业 DBMS 都 有 它们 自己 的 方法 允许 用 户 定 义 UDT 上 的 比较 。 除 了 上 面 提 
到 的 两 个 方法 ， 还 提供 如 下 一 些 功 能 : 
a) 严格 对 象 相等 (Strict Object Equality) 。 两 个 对 象 相等 当 且 仅 当 它们 是 相同 的 对 象 。 
b) 方法 定义 相等 (Method-Defined Equality ) 。 一 个 函数 被 应 用 到 两 个 对 象 ， 其 返回 true 
( 真 ) 还 是 false ( 假 ) 取决 于 这 两 个 对 象 是 否 被 认为 相等 。 
c) 方法 定义 映射 (Method-Defined Mapping)。 一 个 图 数 被 应 用 到 一 个 对 象 并 返回 一 个 实 
数 。 对 象 通 过 返回 的 实数 进行 比较 。 
10.5.5 习题 
习题 10.5.1 使 用 例 10.20 中 的 StarsIn 关 系 以 及 通过 StarsIn 可 以 访问 到 的 Movies 和 MovieStar 关 系 ， 
写 出 以 下 的 查询 : 
a) 查找 电影 Dogma 中 所 有 影星 的 姓名 。 
!b) 查找 至 少 有 一 个 影星 住 在 Malibu 的 所 有 电影 的 片 名 和 年 份 。 
c) 查找 影星 Melanie Griffith 演 过 的 电影 (MovieType 类 型 的 对 象 )。 
!d) 查找 至 少 有 5 位 影星 出 演 的 电影 (包括 名 字 与 年 份 ) 。 
习题 10.5.2 使 用 习题 10.4.3 中 采用 的 模式 ， 写 出 以 下 的 查询 ， 切 记 随 时 使 用 引用 。 
a) 查找 生产 硬盘 大 于 60 GB 的 PC 机 的 制造 商 。 
b) 查找 生产 激光 打印 机 的 制造 商 。 
!c) 创建 一 张 表 ， 对 每 一 款 笔 记 本 电脑 ， 给 出 同一 个 制造 商 生 产 的 具有 最 快 处 理 器 速度 的 笔记 本 电脑 
的 型 号 。 
习题 10.5.3 ”使 用 习题 10.4.5 中 的 模式 ， 写 出 以 下 的 查询 。 切 记 随 时 使 用 引用 ， 并 避免 舍 有 连接 操作 
( 即 子 查询 或 FROM 子 句 中 含有 不 止 一 个 元 组 变量 ) , 
a) 查找 排水 量 大 于 35 000 吨 的 舰 船 。 
b) 查找 至 少 有 一 稻 舰 船 沉 没 的 战役 。 
!c) 查找 在 1930 年 之 后 下 水 的 舰 船 的 类 别 。 
!1d) 查找 至 少 有 一 稻 美 国 船 舰 损毁 的 战役 。 
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习题 10.5.4 ”假设 图 10-23 的 AddrLEG 消 数 可 用 ， 写 一 个 适当 的 函数 来 比较 5tarType 类 型 的 对 象 ， 并 把 
该 函数 声明 为 StarType 对 象 排序 的 基准 。 

! 习 题 10.5.5 ” 写 一 个 过 程 ， 使 该 过 程 以 影星 名 字 为 参数 ， 并 且 删 除 StarsIn 与 MovieStar 中 含有 该 影星 
的 元 组 。 


10.6 联机 分 析 处 理 


数据 库 的 一 个 重要 应 用 是 样本 或 趋势 数据 检查 。 这 种 行为 被 称 作 联 机 分 析 处 理 OLAP 
(On_Line Analytic Processing 的 简称 ， 发 音 为 “oh_lap” )， 一般 包 括 高 度 复杂 的 查询 ， 该 查询 
使 用 一 个 或 多 个 聚集 。 这 些 查询 经 常 称 为 OLAP 查询 (OLAP queries) 或 决策 一 支持 查询 
(decision-support queries) 。 在 10.6.2 节 中 将 给 出 一 些 例子 。 一 个 典型 的 例子 是 为 某 公司 查 找 那 
些 在 全 部 的 销量 中 明显 上 升 或 下 降 的 产品 。 

决策 一 支持 查询 专门 检查 繁杂 庞大 的 数据 ， 即 使 它 的 查询 结果 很 小 。 相 反 ， 一 般 数 据 库 
操作 (如 银行 存款 或 航班 预定 ) 每 个 只 接触 数据 库 的 很 小 一 部 分 ， 后 者 通常 称 为 联机 事务 处 
理 OLTP (On-Line Transaction Processing, 读 作 “oh-ell-tee-pee”) 。 


10.6.1 OLAP 和 数据 仓库 

在 主 数据 库 的 独立 副本 中 发 生 OLAP 应 用 是 很 常见 的 ， 这 个 独立 的 数据 库 副 本 称 为 数据 仓库 
(data warehouse)。 多 个 独立 数据 库 中 的 数据 可 以 整合 到 数据 仓库 中 。 通 常情 况 下 ， 仓 库 仅仅 在 
夜里 更 新 ， 而 在 冻结 副本 上 的 分 析 工 作 则 在 白天 进行 。 仓 库 中 的 数据 因此 有 多 达 24 小 时 的 延误 ， 
这 就 限制 了 OLAP 查 询 答案 的 时 限 ， 但 是 ， 在 许多 决策 一 支持 应 用 中 ， 这 个 延 时 可 以 容忍 。 

数据 仓库 在 OLAP 应 用 中 扮演 重要 角色 有 几 个 理由 。 第 一 ， 在 某 种 程度 上 ， 仓 库 是 组 织 和 
集中 数据 来 支持 OLAP 查 询 所 必须 的 ;这些 数 据 开 始 可 能 是 交叉 分 散在 多 个 不 同 的 数据 库 中 。 
但 是 ， 常 常 更 为 重要 的 是 OLAP 查 询 ， 它 复杂 而 且 涉 及 许多 数据 ， 这 样 在 一 个 高 吞吐 量 的 事务 
处 理 系 统 中 要 花费 太 多 的 时 间 去 执行 。 回 顾 6.6 节 中 关于 串 行事 务 的 讨论 。 运 行 一 个 需要 涉及 
许多 与 其 他 事务 串 行 的 数据 库 的 长 事务 ， 将 使 普通 的 OLTP 操 作 超过 可 以 忍受 的 延迟 。 例 如 ， 
如 果 存 在 一 个 并 发 的 OLAP 查 询 计算 平均 销量 ， 当 新 的 销售 发 生 时 将 可 能 不 允许 记录 它们 。 


10.6.2 OLAP 应 用 

一 个 常见 的 OLAP 应 用 使 用 一 个 关于 销售 数据 的 仓库 。 主 要 的 零售 连锁 商店 将 积累 数 以 万 
亿 字 节 代 表 每 个 商店 的 每 宗 交 易 的 数据 。 将 销售 信息 聚集 成 组 并 区 分 重要 组 的 查询 对 于 公司 
预见 未 来 问题 和 机 遇 有 很 大 好 处 。 

例 10.26 假设 Aardvark Automobile 公 司 建立 一 个 数据 仓库 来 分 析 其 汽车 销量 。 仓 库 的 模 

Sales(serialNo, date, dealer, price) 


Autos(serialNo, model, color) 
Dealers(name, city, state, phone) 


一 个 典型 的 决策 一 支持 查询 可 能 检查 2006 年 4 月 1 号 及 其 以 后 的 销量 ,以 查看 各 州 近 来 每 
种 车 辆 的 平均 价格 怎样 。 这 样 的 查询 如 图 10-24 SELECT state, AVG(price) 


所 示 。 FROM Sales, Dealers 
i s WHERE Sales.dealer = Dealers,name AND 
注意 图 10-24 中 的 查询 是 如 何 涉及 数据 库 中 大 ee 


多 数 数据 的 ， 它 通过 各 州 的 经 销 商 对 近来 Sales 事 ”| GROUP BY state; 
实 进行 分 类 。 相 反 ， 倘 若 在 序列 号 上 有 索引 ， 诸 图 10-24 查询 各 州 的 平均 销售 价格 
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如 “查找 销售 的 序列 号 为 123 的 汽车 价格 ”这 样 的 典型 OLTP 查 询 仅 涉 及 数据 的 单个 元 组 。 口 

男 外 一 个 OLAP 例 子 ， 考 上 处 一 个 信用 卡 公司 试图 决定 申请 者 是 否 有 信用 价值 。 公 司 创建 一 
个 所 有 现 有 客户 和 他 们 支付 历史 的 仓库 。OLAP 查 询 查找 诸如 年 龄 、 收 入 、 家 庭 关系 和 邮编 等 
因素 ， 有 助 于 预测 客户 是 否 按时 支付 账单 。 相 似 地 ， 医 院 可 能 使 用 一 个 关于 病人 信息 (入 院 、 
检查 、 结 果 、 诊 断 、 治 疗 等 ) 的 仓库 来 分 析 病 情 并 选择 最 好 的 治疗 方案 。 


10.6.3 OLAP 数 据 的 多 维 视 图 

在 典型 的 OLAP 应 用 中 ， 有 一 个 中 心 关 系 或 数据 集合 ， 称 为 事实 表 (fact table)。 一 个 事 
实 表 表 示 感 兴趣 的 事件 或 对 象 ， 如 例 10.26 中 的 sales。 car 
通 第 ， 排 列 成 多 维 空间 或 ”立方 体 ” 有 助 于 对 事实 表 二 ge 
中 对 象 的 思考 。 图 10-25 表 示 三 维 数据 ， 用 立方 中 的 点 
表示 ;与 前 面 的 汽车 销售 的 例子 相对 应 ， 立 方 体 的 三 a 9 
维 分 别称 为 car、 dealer 和 date。 因 此 ， 在 图 10-25 中 ,可 a Eo 
以 把 每 个 点 看 作 是 单独 一 辆 汽车 的 销售 ， 而 维 表示 该 
销售 的 特性 。 

诸如 图 10-25 的 数据 空间 被 非 正 式 地 称 为 “数据 立 
方 体 ”， 或 者 当 想 要 与 10.7 节 中 更 复杂 的 “数据 立方 体 ”进行 区 分 时 ， 将 之 更 精确 地 称 为 原始 
数据 立方 体 (raw-data cube)。 当 必须 与 原始 数据 立方 体 区 分 时 ， 后 者 被 称 为 形式 化 〈formal) 
数据 立方 体 ， 有 两 种 方式 与 原始 数据 立方 体 不 同 : 

1. 除 了 包含 它 自身 的 数据 外 ， 还 包含 所 有 维 的 子 集 中 的 数据 聚集 。 

2. 在 形式 化 数据 立方 体 中 的 点 代表 原始 数据 立方 体 中 的 点 的 一 个 初始 聚集 。 例 如 :“car” 
维 可 能 是 仅 用 模型 聚集 ， 而 不 是 表示 每 个 汽车 个 体 〈( 像 为 原始 数据 立方 体 设 定 的 一 样 )。 形 式 化 
数据 立方 体 中 有 一 些 点 表示 给 定 某 天 某 个 给 定 的 经 销 商 的 某 个 给 定 模型 的 所 有 汽车 的 总 销量 。 

原始 数据 立方 体 和 形式 化 数据 立方 体 之 间 的 差别 在 两 个 更 大 的 方向 上 反映 出 来 ， 这 两 个 
方向 已 经 被 支持 OLAP 上 的 立方 体 结构 数据 的 专门 系统 采用 : 

1. RLOAP， 或 者 关系 OLAP (relational OLAP)。 在 这 个 方案 中 ， 数 据 被 存储 在 含有 一 个 
被 称 为 “ 星 型 模式 ”( 在 10.6.4 节 中 描述 ) 的 专门 结构 的 关系 中 。 这 些 关系 中 的 一 种 是 “事实 
表 ”， 包括 原始 的 或 非 聚 集 的 数据 ， 对 应 于 原始 数据 立方 体 。 其 他 关系 给 出 每 个 维 上 的 值 信息 。 
查询 语言 、 索 引 结构 和 系统 的 其 他 能 力 可 以 适应 数据 按 这 种 方式 进行 组 织 的 假定 。 

2. MOLAP， 或 者 多 维 OLAP (multidimensional OLAP)。 这 里 ， 上 面 提 到 的 一 个 专门 的 
结构 形式 “数据 立方 体 ” 被 用 来 控制 数据 ， 包 括 它 的 聚集 。 非 关系 操作 符 可 以 被 系统 用 来 支 
持 对 这 种 结构 数据 的 OLAP 查 询 。 

10.6.4 星 型 模式 

星 型 模式 (star schema) 由 事实 表 的 模式 组 成 ， 这 个 事实 表 链 接 到 其 他 几 个 被 称 为 “ 维 
表 ” 的 关系 。 事 实 表 在 “ 星 ” 的 中 心 ， 星 上 的 点 是 维 表 。 一 个 事实 表 通 常 由 几 个 代表 维 
(dimensions) 的 属性 和 一 个 或 多 个 代表 点 的 总 体 利益 性 质 的 依赖 (dependent) 属性 组 成 。 例 
如 ， 销 售 数据 的 维 可 以 包括 销售 日 期 、 销 售 地 点 (商店 )、 销 售 物品 类 型 和 支付 方法 (如 现金 
或 信用 卡 ) 等 等 。 依 赖 属性 可 以 是 销售 价格 、 销 售 成 本 或 税收 等 。 

例 10.27 例 10.26 中 的 Sales 关 系 

Sales(serialNo, date, dealer, price) 


是 一 个 事实 表 ， 维 是 : 


date —> 


图 10-25 在 一 个 多 维 空间 中 组 织 数 据 
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1. SerialNo， 表 示 汽 车 销售 ， 也 就 是 可 能 的 汽车 空间 中 的 点 的 位 置 。 
2. date， 表 示 销 售 日 期 ， 也 就 是 时 间 维 上 事件 的 位 置 。 
3. dealer ， 表 示 可 能 的 经 销 商 空间 上 事件 的 位 置 。 

一 个 依赖 属性 是 price， 它 是 数据 库 上 典型 的 要 求 聚集 的 OLAP 查 询 。 但 是 ， 查 询 要 的 是 计数 
而 不 是 价格 的 总 和 或 价格 的 平均 ， 如 “ 列 出 2006 年 5 月 每 个 经 销 商 销售 的 总 数目 ”。 口 
补充 事实 表 的 是 描述 沿 每 个 维 的 值 的 维 表 维 表 维 表 
(dimension table)。 典 型 地 ， 事 实 表 的 每 个 维 属性 是 
一 个 引用 相应 维 表 的 键 的 外 键 ， 如 图 10-26 所 示 。 维 表 
的 属性 也 描述 SQL 中 GROUP BY 查询 得 到 的 可 能 的 分 

组 。 为 更 好 地 理解 这 一 点 ， 我 们 通过 举例 说 明 。 

例 10.28 对 于 例 10.26 中 的 汽车 数据 ， 可 能 的 三 
个 维 表 中 的 两 个 是 : 

Autos(serialNo, model, color) 

Dealers(name, city, state, phone) 


事实 表 Sales 中 的 属性 serialNo 是 一 个 外 键 ， 引 用 维 
表 Autos 中 的 serialNos 。 属 性 Autos .mode1 和 
Autos .col1or 给 出 给 定 汽 车 的 特征 。 如 果 将 维 表 Autos 
与 事实 表 Sales 连 接 ， 那 么 属性 mode1 和 color 可 能 被 用 来 以 令 人 感 兴趣 的 方式 为 销售 分 组 。 
例如 ， 可 以 用 颜色 来 查找 未 完成 的 销售 ， 或 者 利用 月 份 和 经 销 商 来 查找 6obi 模 型 的 未 完成 的 
销售 。 

类 似 地 ，Sales 的 属性 dealer 是 一 个 外 键 ， 引 用 维 表 Dealers 的 name。 如 果 Sales 和 
Dealers 结 合 在 一 起 ， 那 么 有 另外 的 选择 分 组 数据 ， 例 如 ， 除 了 可 以 通过 经 销 商 外 ， 还 可 以 通 
过 州 或 城市 查找 一 个 未 完成 的 销售 。 

尔 可 能 惊讶 时 间 维 (Sales 的 date 属 性 ) 在 哪里 。 既 然 时 间 是 一 个 物理 特性 ， 它 对 数据 库 
中 关于 时 间 的 存储 事实 没有 影响 ， 因 为 不 能 改变 诸如 “2007 年 7 月 5 日 出 现在 哪 一 年 ? ”这 样 
的 答案 。 但 是 ， 因 为 根据 不 同 的 时 间 单 位 的 分 组 (如 周 、 月 、 季 度 和 年 ) 经 常 被 分 析 者 采用 ， 
它 有 助 于 在 数据 库 中 建立 一 个 时 间 概 念 ， 就 像 有 一 个 诸如 下 列 形式 的 时 间 ” 维 表 ”: 

Days(day, week, month, year) 

这 种 假想 的 “关系 ”的 一 个 典型 的 元 组 可 能 是 (5,27,7,2007)， 代 表 2007 年 7 月 5 日 。 可 以 
解释 为 这 一 天 是 2007 年 的 第 7 个 月 的 第 5 天 ， 它 恰巧 也 是 2007 年 的 第 27 周 。 由 于 周 是 通过 其 他 
三 个 属性 计算 出 来 的 ， 所 以 有 一 定 的 元 余 。 但 是 ， 周 不 是 严密 地 与 月 相当 ， 所 以 通过 周 的 分 
组 得 不 到 通过 月 的 分 组 。 因 此 ， 设 想 在 “ 维 表 ” 中 同时 用 周 和 月 表示 是 有 意义 的 。 口 


10.6.5 切片 和 切 块 

可 以 认为 原始 数据 立方 体 上 的 点 是 在 一 些 粒度 级 别 上 的 基于 每 个 维 上 的 分 割 。 例 如 ， 在 
时 间 维 上 ， 可 以 依照 日 、 周 、 月 、 年 来 分 割 (在 SQL 中 的 术语 是 “group by”) ， 或 者 根本 不 分 
割 。 对 于 汽车 维 ， 可 以 依照 模型 、 依 照 颜 色 、 同 时 依照 模型 和 颜色 来 切割 ， 或 不 切割 。 对 于 
经 销 商 ， 可 以 依照 经 销 商 、 依 照 城 市 、 依 照 州 进行 分 割 或 不 分 割 。 

如 图 10-27 所 示 ， 这 种 分 割 是 一 种 对 每 个 维 将 立方 体 “ 切 成 小 方块 ”的 切割 。 结 果 是 立方 





图 10-26 引用 维 表 的 键 的 事实 表 中 的 维 
属性 


日 恰巧 serialNo 也 是 关系 Sales 的 键 , 但 是 并 不 必 是 一 个 属性 ， 它 是 事实 表 的 一 个 键 同时 也 是 一 些 维 表 的 外 键 。 
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体 被 分 为 更 小 的 立方 体 ， 这 些小 的 立方 体 代表 利用 GROUP BY 子 句 执行 这 样 分 割 的 点 的 统计 汇 
总 。 通 过 WHERE 子 句 ， 查 询 也 可 以 选择 集中 于 沿 一 个 或 多 个 维 (如 在 立方 体 的 一 个 特殊 的 “ 切 
片 ”上 ) 的 特定 分 割 。 

例 10.29 图 10-28 给 出 的 是 一 个 查询 ， 要 求 切片 在 一 维 上 (数据 data) ， 分 块 在 另外 两 个 
维 上 (汽车 car 和 经 销 商 dealer)。 数 据 被 分 为 四 组 ,或 许 数据 已 经 积累 了 四 年 以 上 。 图 中 阴影 
部 分 指出 用 户 只 对 其 中 这 些 年 感 兴 趣 。 口 


car # 






Pd pd PA PA 
A 





date —™ date ”一 一 


图 10-27 对 每 个 维 将 立方 体 切 成 小 方块 图 10-28 选择 一 个 被 切 成 小 块 的 立方 体 的 一 个 切片 


一 个 所 谓 的 “切片 与 切 块 ”查询 的 一 般 形式 是 : 

SELECT < 分 组 属性 和 聚集 > 

FROM 《事实 表 与 某 个 维 表 连接 > 

WHERE < 某 些 属性 是 常量 > 

GROUP BY < 分 组 属性 >; 

例 10.30 继续 汽车 的 例子 ,但 是 将 例 10.28 中 讨论 的 关于 时 间 的 Days 维 表 的 概念 包含 进来 。 
如 果 Gobi 不 像 预期 的 那样 好 卖 ， 可 能 会 试图 找 出 哪 种 颜色 的 车 卖 得 不 好 。 这 个 查询 仅仅 利用 
Autos 维 表 ， 可 以 用 SQL 如 下 写 出 : 

SELECT color, SUM(price) 

FROM Sales NATURAL JOIN Autos 


WHERE model = ’Gobi’ 
GROUP BY color; 


这 个 查询 根据 颜色 分 块 ， 然 后 根据 模型 切片 ， 集 中 到 一 个 特定 模型 Gobi， 并 且 忽 略 其 他 
数据 。 

假设 查询 获取 的 信息 不 多 ， 每 种 颜色 产生 大 约 同样 的 收入 。 由 于 查询 不 在 时 间 维 上 分 割 ， 
因此 看 到 的 只 是 每 种 颜色 在 全 部 时 间 上 的 总 量 。 可 以 假设 最 近 的 趋势 是 一 个 或 多 个 颜色 销售 
疲软 。 这 样 可 能 会 因此 发 出 修订 后 的 查询 ， 该 查询 也 把 时 间 按 月 分 割 。 该 查询 是 : 

SELECT color, month, SUM(price) 

FROM (Sales NATURAL JOIN Autos) JOIN Days ON date = day 

WHERE model = ’Gobi’ 

GROUP BY color, month,; 

下 钻 与 上 卷 

例 10.30 阐 述 了 对 数据 立方 体 切 片 与 切 块 查询 序列 中 两 种 较 常 见 的 模式 。 

1. 下 钻 (Drill-Down) 是 在 某 些 维 上 划分 更 精细 和 /或 侧重 于 具体 价值 的 过 程 。 例 10.30 
中 除了 最 后 一 步 ， 每 一 步 都 是 向 下 钻 取 的 一 个 实例 。 


2. 上 卷 (Roll-Up) 是 划分 更 粗糙 的 过 程 。 在 最 后 一 步 我 们 按 年 分 组 代替 按 月 分 组 以 消 
除数 据 随意 性 的 影响 ， 是 上 卷 的 一 个 实例 。 
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记 住 Days 关 系 不 是 传统 的 存储 关系 非常 重要 ， 尽 管 可 以 认为 它 好 像 有 模式 

Days(day, week, month, year) 
能 够 使 用 这 样 的 一 个 “关系 ”是 系统 专门 为 OLAP 查 询 区 别 于 传统 DBMS 设 计 的 一 种 方法 。 

可 以 发 现 最 近 红色 Gobi 的 销售 情况 不 好 。 接 着 可 能 会 问 的 是 这 个 问题 是 否 存在 于 所 有 的 
经 销 商 ,或 者 是 否 仅 仅 存 在 于 这 些 红色 Gobi 销 售 较 低 的 经 销 商 。 因 此 ， 进 一 步 集 中 于 查询 ， 
只 看 红色 Gobi， 同 样 沿 经销 商 维 分 区 。 该 查询 是 ， 

SELECT dealer, month, SUM(price) 

FROM (Sales NATURAL JOIN Autos) JOIN Days ON date = day 


WHERE model = ’Gobi’ AND color = ’red’ 
GROUP BY month, dealer; 


这 时 ， 我 们 发 现 红 色 Gobi 的 每 月 销售 量 太 小 ， 以 致 根本 不 能 轻易 地 观察 到 趋势 。 因 此 ， 我 们 
认为 按 月 分 组 是 错误 的 。 一 个 更 好 的 想法 是 仅仅 按 年 来 分 组 ， 并 且 只 看 最 后 两 年 〈 在 这 个 假 


设 的 例子 中 只 看 2006 和 2007 年 )。 最 终 的 查询 如 图 10-29 所 示 。 口 


SELECT dealer, year, SUM(price) 
FROM (Sales NATURAL JOIN Autos) JOIN Days ON date = day 
WHERE model = ’Gobi?’ AND 


color = ’red’ AND 
(year = 2006 OR year = 2007) 
GROUP BY year, dealer; 





图 10-29 关于 红色 Gobi 销 售 量 的 最 终 切 片 与 切 块 查询 


10.6.6 习题 

习题 10.6.1 ”一 个 联机 计算 机 销售 商 希 望 维持 预 定 信息 。 顾 客 可 以 根据 处 理 器 、 主 存量 、 磁 盘 机 数 、 
CD 或 DVD 读 取 器 数 来 预定 PC。 这 样 一 个 数据 库 的 事实 表 为 ， 
0rders(cust，date，Pproc， memory, hd, od, quant, price) 
应 当 理解 属性 cust 作 为 一 个 ID 是 关于 顾客 维 表 的 外 键 ， 类 似 地 来 理解 属性 proc、hd (hard disk) 和 
od (optical disk，CD 或 DVD)。 例 如 ，hd ID 在 一 个 维 表 中 可 能 被 精心 制作 表示 磁盘 和 几 个 磁盘 特征 
的 制造 商 。 属性 memory 只 是 一 个 整数 , 表示 预定 的 内 存 大 小 。 属 性 quant 是 顾客 预定 此 类 机 器 的 数量 ， 
属性 price 是 每 台 预 定 的 机 器 的 总 花费 。 
a) 哪些 是 维 属性 (dimension attribute ) ， 哪 些 是 依赖 属性 (dependent attribute )? 
b) 对 于 某 些 维 属性 ， 可 能 需要 一 个 维 表 。 为 这 些 维 表 提 出 适当 的 建议 。 

! 习 题 10.6.2 ”假设 想 要 测试 习题 10.6.1 中 的 数据 以 发 现 趋势 ， 从 而 预测 公司 应 该 更 多 地 预定 哪些 组 件 。 
描述 一 系列 可 能 导致 客户 开始 喜欢 DVD 驱动 器 其 于 CD 驱动 器 的 结论 的 下 钻 与 上 卷 (drill-down and 
roll-up) 查询 。 


10.7 数据 立方 体 


在 本 节 中 将 考虑 “形式 化 ”数据 立方 体 和 在 这 种 形式 上 的 特定 数据 操作 。 回 顾 10.6.3 节 ， 
形式 化 的 数据 立方 体 〈 在 本 节 是 数据 立方 体 ) 预先 系统 地 计算 所 有 可 能 的 聚集 。 令 人 吃惊 的 
是 ， 需 要 一 定数 量 的 额外 容量 通常 可 以 忍受 ， 并 且 只 要 库存 的 数据 不 改变 ， 那 么 试图 保持 所 
有 的 聚集 处 于 更 新 状态 将 不 会 招致 处 罚 。 

在 数据 立方 体 中 ， 事 实 表 中 的 原始 数据 进入 数据 立方 体 或 进一步 聚集 计算 之 前 存在 一 些 
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聚集 是 正常 的 。 例 如 ， 在 汽车 例子 中 ， 认 为 是 系列 星 型 模式 中 的 维 可 能 被 汽车 的 模型 所 替代 。 
然后 ， 数 据 立 方 体 的 每 个 点 变 成 一 个 模型 、 一 个 经 销 商 和 日 期 以 及 在 这 一 天 由 该 经 销 商 关 于 
这 一 模型 的 销售 总 量 的 一 种 描述 。 这 里 仍然 称 (形式 化 的 ) 数据 立方 体 上 的 这 些 点 为 “事实 
表 ”， 尽 管 这 些 点 的 解释 与 从 原始 数据 立方 体 建立 起 来 的 星 型 模式 中 的 事实 表 有 些许 不 同 。 


10.7.1 立方 体 算 子 

给 定 事实 表 F， 可 以 定义 一 个 增 量 表 CUBE(F)， 它 为 每 个 维 添加 一 个 额外 值 ， 用 “*” 表 
示 。 "*” 有 直观 的 意义 :“ 任 何 ”， 并 且 它 代表 沿 它 出 现 的 
维 的 聚集 。 图 10-30 给 出 了 为 立方 体 的 每 个 维 添 加 一 条 边 的 
过 程 ， 表 示 “*” 值 和 聚集 值 。 在 图 中 看 到 三 个 维 ， 阴 影 颜 
色 最 浅 的 表示 一 维 上 的 聚集 ， 较 次 的 阴影 是 二 维 聚 集 ， 在 
角 上 的 最 深 的 立方 体 是 所 有 三 维 的 聚集 。 注 意 ， 如 果 沿 每 
个 维 上 的 数据 合理 地 大 ， 那 么 “ 边 ” 只 表示 对 立方 体 体积 
的 很 小 的 增加 (也 就 是 事实 表 中 的 元 组 数 )。 如 果 是 那样 的 
话 ， 存 储 数据 CUBE(F) 的 大 小 并 不 是 远大 于 Ff 本 身 的 大 小 。 

表 CUBE(F) 中 在 一 维 或 多 维 上 含有 * 的 元 组 将 会 对 每 个 。 ”图 10-30 为 立方 体 的 每 个 维 
依赖 属性 在 所 有 可 以 用 真实 值 代替 * 值 所 得 到 的 元 组 上 对 该 属 添加 一 条 边 
性 的 值 进 行 求 和 (或 其 他 聚集 函数 )。 实 际 上 ， 是 沿 着 任何 维 的 集合 建立 到 数据 的 聚集 结果 。 
注意 ， 该 立方 体 算 子 并 不 支持 在 基于 维 表 中 的 值 的 粒度 的 中 间 层 次 上 的 聚集 。 例 如 ， 可 以 要 
么 按 天 (或 任何 最 好 的 时 间 粒 度 ) 分 开 数据 ， 要 么 完全 地 聚集 时 间 ， 但 是 不 能 独立 地 应 用 立 
方 体 算 子 依据 周 、 月 或 者 年 来 聚集 。 

例 10.31 根据 CUBE 算 子 提供 的 东西 ， 重 新 考虑 例 10.26 中 的 Aardvark 数 据 库 。 回 顾 例子 
中 的 事实 表 是 : 

Sales(serialNo, date, dealer, price) 

不 过 ， 产 品 序列 号 (serialNo) 代表 的 维 并 不 能 很 好 地 适合 立方 体 ， 因 为 序列 号 是 Sales 
的 一 个 键 。 因 此 ， 保 持 序 列 号 固定 不 变 ， 对 所 有 日 期 或 所 有 经 销 商 的 价格 求 和 并 无 影响 ， 我 们 
仍然 能 够 得 到 该 序列 号 的 一 辆 汽车 的 “和 ”。 一 个 更 为 有 用 的 数据 立方 体 将 用 两 个 属性 (model 
和 color) 来 替换 序列 号 ， 序 列 号 通过 维 表 Autos 与 Sales 相 连 。 注 意 ， 如 果 用 mode1 和 co1or 替 
换 serialNo， 那 么 该 立方 体 在 它 的 维 之 间 不 再 有 键 。 因 此 ， 立 方 体 的 一 个 人 口 将 有 给 定 的 一 种 
模型 、 一 种 颜色 、 由 一 个 给 定 的 经 销 商 在 某 一 给 定 日 期 卖 出 的 所 有 汽车 的 总 销售 价格 。 

另外 ， 还 有 一 个 变化 对 数据 立方 体 Sales 事 实 表 的 实现 有 用 。 由 于 立方 体 算 子 通常 对 依赖 
变量 求 和 ， 因 此 用 户 可 能 想 要 得 到 某 些 类 别 销售 的 平均 价格 ， 这 就 需要 每 一 种 类 汽车 (在 某 
一 天 某 一 给 定 经 销 商 售 出 的 某 一 给 定 颜 色 的 给 定 模型 的 汽车 ) 价格 的 总 和 与 相应 种 类 汽车 销 
售 的 总 数 。 因 此 ， 应 用 立方 体 算 子 的 关系 Sales 是 

Sales(model, color, date, dealer, val, cnt) 
属性 val 是 给 定 模 型 、 颜 色 、 日 期 和 经 销 商 的 所 有 汽车 的 总 价格 ， 而 cnt 是 该 类 别 汽车 的 总 
数量 。 

现在 ， 考 虑 关系 CUBE (Sales)。CUBE (Sales) 中 一 个 假定 的 元 组 是 : 

(Gobi’, ’red’, ’2001-05-21’, ’Friendly Fred’, 45000, 2) 
意思 是 在 2001 年 5 月 21 日 ， 经 销 商 Friendly Fred 卖 出 两 辆 红色 Gobi， 共 计 45 000 美 元 。 在 Sales 中 ， 
该 元 组 可 能 也 会 出 现 ， 或 者 在 Sales 中 有 两 个 元 组 ， 每 个 元 组 的 cnt 为 1， 它 们 的 va1 相 加 为 45 000。 
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元 组 
(?Gobi’, *, 2001-05-=21’, ’Friendly Fred’, 152000, 7) 
是 说 在 2001 年 5 月 21 日 ，Friendly Fred 售 出 7 辆 包含 全 部 颜色 的 Gobi， 共 计 $152 000。 注 意 这 个 
元 组 是 在 CUBE (Sales) 中 ， 而 不 是 在 Sales 中 。 
关系 CUBE (Sales) 也 包含 多 于 一 个 属性 的 聚集 的 元 组 。 例 如 : 
(Gobi’, *, 2001-05-21?, *, 2348000，100) 
是 说 在 2001 年 5 月 21 日 ， 所 有 的 经 销 商 卖 出 100 辆 Gobi， 这 些 Gobi 的 总 价格 是 $2 348 000。 
(?Gobi?, *, K*，*，1339800000，58000) 
是 说 所 有 的 时 间 、 所 有 经 销 商 、 所 有 的 颜色 ，Gobi 共 卖 出 58 000 辆 ， 总 价格 为 $1 339 800 000。 
最 后 ， 元 组 
(# ， 沙 ， 半 ， 半 ，3521727000，198000) 
是 说 所 有 颜色 的 所 有 Aardvark 模 型 ， 在 全 部 时 间 内 所 有 的 经 销 商 共 卖 出 总 价格 为 $3 521 727 000 
的 汽车 198 000 辆 。 口 


10.7.2 SQL 中 的 立方 体 算 子 

SQL 为 在 查询 中 运用 立方 体 算 子 提供 了 一 种 方法 。 如 果 添 加 术语 WITH CUBE 到 一 个 group- 
by 子 句 中 ， 那 么 不 仅 能 得 到 每 个 分 组 的 元 组 ， 而 且 还 能 得 到 表示 根据 已 经 分 组 的 一 个 或 多 个 
维 的 聚集 的 元 组 。 在 使 用 “*” 的 地 方 ， 这 些 元 组 出 现 结果 为 NULL。 

例 10.32 可 以 如 下 构造 一 个 物化 视图 ， 即 在 例 10.31 中 称 之 为 CUBE(Sales) 的 数据 立方 体 : 


CREATE MATERIALIZED VIEW SalesCube AS 
SELECT model, color, date, dealer, SUM(val), SUM(cnt) 
FROM Sales 
GROUP BY model, color, date, dealer WITH CUBE; 


视图 SalesCube 不 仅 包含 被 sroup-by 操 作 剖 涵 的 元 组 ， 例 如 

(Gobi’, ’red’, ’2001-05-21’, "Friendly Fred’, 45000, 2) 
也 会 包含 CUBE(Sales) 的 元 组 ， 其 中 ，CUBE(Sales ) 是 通过 上 卷 6ROUP BY 中 列 出 的 维 来 构造 。 
这 些 元 组 的 一 些 例子 是 : 

(YGobi’?, NULL, ;2001-05-21?, ’Friendly Fred’, 152000, 7) 

(’Gobi’, NULL, ’2001-05-21’, NULL, 2348000,100) 

(Gobi’, NULL, NULL, NULL, 1339800000, 58000) 

(NULL, NULL, NULL, NULL, 3521727000, 198000) 
记得 NULL 是 用 于 指明 一 个 上 卷 的 维 ， 等 价 于 在 抽象 立方 体 算 子 结果 中 的 *。 口 

立方 体 算 子 的 一 个 变量 ROLLUP 只 有 当 元 组 聚集 分 组 属性 的 一 个 尾部 序列 时 ， 才 会 产生 额 
外 的 聚集 元 组 。 通 过 附加 WITH ROLLUP 到 group-by 子 句 来 指明 这 种 选择 。 

例 10.33 我 们 可 以 得 到 Sales 的 部 分 数据 立方 体 ，Sales 是 用 ROLLUP 算 子 构造 的 : 

CREATE MATERIALIZED VIEW SalesRollup AS 

SELECT model, color, date, dealer, SUM(val), SUM(cnt) 


FROM Sales 
GROUP BY model, color, date, dealer WITH ROLLUP; 


视图 SalesRo11up 将 包含 元 组 


(Gobi’, ’red’, ’2001-05-21’, ’Friendly Fred’, 45000, 2) 
(?Gobi’, ’red’, ’2001-05-21’, NULL, 3678000,，135) 
(Gobi’, ’red’, NULL, NULL, 657100000, 34566) 

(Gobi’, NULL, NULL, NULL, 1339800000,58000) 
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(NULL, NULL, NULL, NULL, 3521727000,198000) 
因为 这 些 元 组 代表 某 个 维和 所 有 维 上 的 聚集 ， 如 果 有 的 话 ， 在 SalesRo11up 后 续 的 分 组 属 
性 列表 中 。 


但 是 ，SalesRo1l1up 不 会 包含 诸如 
(’Gobi’, NULL, ’2001-05-21’, ’Friendly Fred’, 152000, 7) 
(Gobi’, NULL, ’2001-05-21’, NULL, 2348000，100) 


这 样 的 元 组 。 这 些 元 组 每 个 在 一 个 维 (两 种 情况 中 的 color) 中 都 有 NULL， 但 是 在 一 个 或 多 个 
后 续 的 维 属性 中 没有 NULL。 口 


10.7.3 习题 
习题 10.7.1 如 果 事 实 表 F 有 如 下 的 特征 ，CUBE() 与 F 的 大 小 之 比 是 多 少 ? 
a) F 有 10 个 维 属性 ， 每 个 都 有 10 个 不 同 的 值 。 
b) FF 有 10 个 维 属性 ， 每 个 都 有 2 个 不 同 的 值 。 
习题 10.7.2 用 例 10.32 中 的 物化 视图 SalesCtube 回 答 下 列 查 询 : 
a) 查找 每 个 经 销 商 售 出 的 蓝 色 汽车 的 总 量 。 
b) 查找 经 销 商 Smikin” Sally. 售 出 的 绿色 Gobi 的 总 数 。 
c) 查找 每 个 经 销 商 在 2007 年 3 月 的 每 一 天 售 出 的 Gobi 的 平均 数量 。 
习题 10.7.3 ”如 果 有 帮助 的 话 ， 例 10.33 中 的 上 卷 SalesRo11up 可 以 是 习题 10.7.2 中 的 每 个 查询 吗 ? 
习题 10.7.4 ”在 习题 10.6.1 中 ，PC 预 定数 据 由 属性 cust、proc、memory、hd 和 od 的 维 表 组 织 成 事实 表 。 
即 ， 事 实 表 0rders 的 每 个 元 组 有 这 些 属性 每 一 个 的 ID， 指 向 预定 的 PC 的 信息 。 写 一 个 产生 这 个 事实 
表 的 数据 立方 体 的 SQL 查询 。 
习题 10.7.5 “用 习题 10.7.4 中 的 数据 立方 体 回答 下 列 查询 。 如 果 必 要 ， 也 可 以 使 用 维 表 。 你 可 以 为 维 表 
确定 合适 的 名 字 和 属性 。 
a) 对 于 每 个 处 理 器 的 速度 ， 查 找 2007 年 每 月 预定 的 计算 机 的 总 数 。 
b) 列 出 每 种 类 型 的 硬盘 (如 SCSI 或 IDE) 和 每 种 处 理 器 类 型 的 计算 机 的 预定 数量 。 
c) 查找 从 2005 年 6 月 以 来 处 理 器 为 3.0GHZ 的 计算 机 每 个 月 的 平均 价格 。 
! 习 题 10.7.6” 例 10.32 中 提 到 的 立方 体 元 组 不 在 例 10.33 的 rollup 中 。 是 否 有 其 他 的 rollup 可 以 包含 这 些 元 组 ? 
! 习 题 10.7.7 ”如 果 应 用 立方 体 算 子 的 事实 表 F 是 稀 朴 的 〈( 即 在 FE 中 有 很 多 比 在 各 维 上 的 可 能 数量 的 产品 
少 的 元 组 )， 那 么 ，CUBE(P) 与 F 的 大 小 之 比 可 以 很 大 ， 它 可 以 有 多 大 ? 


10.8 小 结 


“权限 (Privilege); 出 于 安全 性 的 考虑 ，SQL 系 统 允 许 对 数据 库 元 素 拥 有 多 种 不 同 的 权限 。 
这 些 权限 包括 选择 ( 读 )、 插 入 、 删 除 或 修改 关系 的 权力 ， 还 包括 引用 关系 的 权力 (在 
约束 条 件 下 引用 它们 )， 以 及 创建 触发 器 的 权力 。 

“授权 图 (Grant Diagram): 权限 可 以 被 其 属 主 传授 给 其 他 用 户 或 者 一 般 用 户 PUBLIC， 如 
果 授 权 的 时 候 带 有 授权 选项 ， 那 么 ,这些 权限 可 以 传递 给 其 他 用 户 。 权 限 也 可 以 收回 。 
授权 图 是 一 种 非常 有 用 的 方法 ， 用 以 记 住 足够 多 的 授权 和 收 权 的 历史 纪录 ， 并 跟踪 谁 拥 
有 何 种 权限 以 及 他 们 是 从 何 处 获得 的 这 些 权限 。 

“SQL 递归 查询 (SQL Recursive Query): 在 SQL 中 ， 可 以 递归 地 定义 一 个 关系 ， 即 由 它 
自身 定义 。 或 者 ， 几 个 关系 可 以 相互 递归 地 定义 。 

“单调 性 【Monotonicity) : 一 个 SQL 递归 中 的 否定 和 聚集 必须 是 单调 的 一 一 在 一 个 关系 中 
插入 元 组 不 会 引起 任何 关系 (包括 它 自身 ) 中 的 元 组 的 删除 。 直 观 地 ， 一 个 关系 可 能 不 
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会 被 直接 或 间接 地 由 于 它 自 身 的 否定 或 聚集 而 定义 。 

。 对 象 关 系 模型 (the Object-Relational Model) : 另 一 种 纯粹 的 面向 对 象 数据 库 模 式 ， 和 
ODL 一 样 是 对 关系 模型 进行 扩展 以 包含 主要 的 面向 对 象 特征 。 这 些 扩展 包括 嵌 套 关系 ， 
即 关系 属性 的 复杂 类 型 包括 关系 作为 一 种 类 型 。 另 外 的 扩展 包括 为 这 些 类 型 定义 的 方法 
和 一 个 元 组 通过 引用 类 型 引用 另外 元 组 的 能 力 。 

*SQL 中 的 用 户 定义 类 型 (User-Defined Type in SQL): SQL 中 的 面向 对 象 关系 功能 都 是 
围绕 着 UDT (用 户 定义 类 型 ) 展开 。 这 些 类 型 的 声明 与 表 声 明 类 似 ， 是 通过 列 出 它们 的 
属性 和 其 他 信息 进行 。 此 外 ， 对 UDT 类 型 可 以 声明 方法 。 

。 有 UDT 类 型 的 关系 (Relation with a UDT as Type): 可 以 声明 一 个 关系 含有 某 个 UDT 类 型 ， 
而 不 是 声明 该 关系 的 各 个 属性 。 如 果 这 样 做 ， 那 么 该 关系 的 元 组 将 有 一 个 UDT 对 象 的 分 量 。 

。 引 用 类 型 (Reference Type) : 一 个 属性 的 类 型 可 以 是 一 个 对 UDT 的 引用 ， 这 些 属性 实质 
上 是 指向 该 UDT 对 象 的 指针 。 

。UDT 的 对 象 标识 (Object Identity for UDT’s): 当 创 建 一 个 类 型 为 UDT 的 关系 时 ， 将 为 
每 个 元 组 声明 一 个 属性 作为 该 元 组 的 “对 象 标识 ”。 该 分 量 是 对 元 组 本 身 的 引用 。 与 面 
向 对 象 系统 不 同 ， 用 户 可 以 访问 该 OID 列 ， 尽 管 它 没 有 什么 意义 。 

。 访 问 UDT 中 的 分 量 (Accessing Component of UDT): SQL 为 UDT 的 每 一 个 属性 提供 了 
观测 器 和 转换 器 函数 。 当 它们 作用 于 UDT 的 任何 对 象 时 ， 这 些 函 数 将 分 别 返 回 或 修改 给 
定 的 属性 值 。 

。UDT 的 排序 功能 (Ordering Function for UDT'S) :为 了 比较 对 象 ， 或 者 为 了 使 用 SQL 中 
诸如 DISTINCT、GROUP BY 或 ORDER BY 之 类 的 操作 ，UDT 的 执行 者 有 必要 提供 一 个 功能 
来 分 辨 两 个 对 象 是 否 相等 或 一 个 是 否 领先 于 另 一 个 。 

“OLAP: 联机 分 析 处 理 涉及 复杂 的 在 同一 时 间接 触 全 部 或 大 部 分 数据 的 查询 。 通 常 ， 一 
个 单独 的 数据 库 ( 称 为 数据 仓库 ) 被 建造 用 来 运行 这 样 的 查询 ， 而 实际 的 数据 库 则 用 于 
短期 交易 (OLTP， 或 者 联机 事务 处 理 ) 。 

。ROLAP 和 MOLAP: 对 于 OLAP 查 询 ， 经 常 有 用 的 是 认为 数据 存在 于 多 维 空间 ， 并 且 有 
维 与 数据 代表 的 独立 方面 相对 应 。 支 持 这 一 数据 观点 的 系统 要 么 采取 关系 的 视图 
(ROLAP， 或 者 关系 型 OLAP 系 统 ) ， 要 么 采用 专门 的 数据 立方 体 模型 (MOLAP， 或 者 
多 维 OLAP 系 统 )。 

。 星 型 模式 (Star Schema) : 在 星 型 模式 中 ， 每 个 数据 元 素 (如 出 售 物品 ) 被 表示 在 称 为 
事实 表 的 关系 中 ， 而 有 助 于 解释 各 维 的 值 的 信息 (如 产品 项 目 为 1234 的 产品 是 什么 类 
型 ? ) 则 为 每 个 维 存放 在 一 个 维 表 中 。 

。 立 方 体 算 子 (the Cube Operator) ， 称 为 立方 体 的 专门 操作 符 涪 着 维 的 所 有 子 集 预 聚集 事 
实 表 。 它 可 能 会 很 少 地 增加 事实 表 所 需 的 空间 ， 却 大 大 提高 OLAP 查 询 的 速度 。 

。SQL 中 的 数据 立方 体 (Data Cube in SQL): 通过 为 group-by 子 名 附加 上 WITH CUBE， 可 以 将 
一 个 查询 的 结果 转变 到 数据 立方 体 中 。 其 中 也 可 以 用 WITH ROLLUP 创 建立 方 体 的 一 部 分 。 
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第 11 章 半 结 构 化 数据 模型 


现在 转向 一 种 不 同 的 数据 模型 。 该 模型 称 为 “ 半 结 构 化 的 "， 其 模式 被 隐 含 在 数据 中 ， 而 
不 是 独立 于 数据 进行 声明 (如 关系 模型 和 所 有 到 目前 为 止 所 学 的 其 他 模型 那样 )。 在 概括 讨论 
半 结 构 化 数据 后 ， 我 们 转向 该 思想 最 重要 的 表现 形式 : XML。 接 下 来 还 将 讨论 描述 XML 数据 
的 方法 ， 实 际 上 是 为 这 一 “无 模式 ”的 数据 强加 了 一 种 模式 。 这 些 方 法 包括 DTD (Document 
Type Definition， 文 档 类 型 定义 ) 和 XML 语言 模式 。 


11.1 半 结 构 化 数据 


半 结 构 化 数据 (semistructured-data) 模型 在 数据 库 系 统 中 有 着 独特 的 地 位 ， 

1. 它 是 一 种 适 于 数据 库 集 成 (integration) 的 数据 模型 ， 也 就 是 说 ， 适 于 描述 包含 在 两 个 
或 多 个 数据 库 (这 些 数 据 库 含 有 不 同 模式 的 相似 数据 ) 中 的 数据 。 

2. 它 是 一 种 标记 服务 的 基础 模型 ， 用 于 在 Web 上 共享 信息 。11.2 节 要 讨论 的 XML 就 是 这 
样 的 一 个 例子 。 

这 一 节 将 介绍 “ 半 结 构 化 数据 ”的 基本 思想 ， 以 及 它 为 何 比 以 前 讨论 过 的 模型 可 以 更 灵 
活 地 表示 信息 。 


11.1.1 为 何 需要 半 结 构 化 数据 模型 

到 目前 为 止 所 见 到 的 模型 一 E/R、UML、 关 系 模型 、ODL 一 一 每 个 都 是 以 模式 开始 。 
模式 是 一 种 放置 数据 的 严格 框架 。 这 种 严格 性 提供 了 某 些 优点 。 特 别 地 ， 关 系 模型 的 成 功 在 
于 它 的 高 效 实现 。 这 种 高 效 性 来 自 于 关系 数据 库 中 的 数据 必须 符合 其 模式 并 且 该 模式 为 查询 
处 理 器 所 知 这 一 事实 。 例 如 ， 像 8.3 节 所 讨论 的 那样 ， 固 定 其 模式 可 以 使 数据 组 织 成 能 支持 有 
效 查 询 响应 的 数据 结构 。 

另 一 方面 ， 对 半 结 构 化 数据 模型 感 兴趣 的 动机 主要 是 它 的 灵活 性 。 特 别 地 ， 半 结构 化 数 
据 是 “无 模式 ”的 。 更 准确 地 说 ， 甚 数据 是 自 描述 (self-describing) 的 。 它 携带 了 关于 其 模 
式 的 信息 ， 并 且 这 样 的 模式 可 以 随时 间 在 单一 数据 库 内 任意 改变 。 

人 们 可 能 很 自然 地 想 知道 无 模式 地 创建 数据 库 是 否 存在 优点 ， 在 这 样 的 数据 库 中 ， 可 以 
随意 地 输入 数据 ， 并 且 访 问 该 数据 时 你 感觉 到 的 模式 信息 就 是 适合 它 的 模式 。 实 际 上 有 一 些 
小 规模 的 信息 系统 ， 如 Lotus Notes， 它 们 就 采用 了 自 描述 数据 的 方法 。 这 种 灵活 性 可 能 使 查 
询 处 理 更 加 困难 ， 但 它 给 用 户 提 供 了 显著 的 优势 。 例 如 ， 可 以 在 半 结 构 化 模型 中 维护 一 个 电 
影 数 据 库 ， 并 且 能 如 用 户 所 愿 地 添加 类 似 “ 我 喜欢 看 此 部 电影 吗 ?” 这 样 的 新 属性 。 这 些 属性 
不 需要 所 有 电影 都 有 值 ， 或 者 甚至 不 需要 多 于 一 个 电影 有 值 。 同 样 地 ， 可 以 添加 类 似 
“homage to” 这 样 的 联系 而 不 需要 改变 模式 ， 或 者 甚至 表示 不 止 一 对 的 电影 间 的 联系 。 
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11.1.2 半 结 构 化 数据 表示 

半 结 构 化 数据 的 数据 库 是 节点 (node) 的 集合 ， 每 个 节点 都 是 一 个 叶子 节点 (leaf) 或 者 
是 一 个 内 部 节点 (interior)。 叶 子 节 点 与 数据 相关 ， 数 据 的 类 型 可 以 是 任意 原子 类 型 ， 如 数字 
和 字符 串 。 每 个 内 部 节点 至 少 都 有 一 条 向 外 的 弧 。 每 条 弧 都 有 一 个 标签 (label) ， 该 标签 指明 
弧 开 始 处 的 节点 与 弧 末 端的 节点 之 间 的 关系 。 一 个 名 为 根 (root) 的 内 部 节点 没有 进入 的 弧 ， 
它 代表 整个 数据 库 。 每 个 节点 都 从 根 可 达 ， 尽 管 这 个 图 结构 未 必 是 一 棵 树 。 

例 11.1 图 11-1 是 一 个 关于 电影 与 影星 的 半 结 构 化 数据 库 。 顶 部 的 节点 名 为 Root， 该 节点 
是 指向 数据 的 入 口 ， 可 以 认为 这 个 节点 表示 了 数据 库 中 的 所 有 信息 。 中 心 对 象 或 实体 一 一 此 
例 中 为 影星 和 电影 一 一 是 Root 节 点 的 子 节点 。 
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图 11-1 代表 一 部 电影 和 其 中 影星 的 半 结 构 化 数据 


图 中 还 看 到 许多 叶子 节点 。 例 如 ， 最 左边 的 叶子 节点 旁边 写 着 Carrie Fisher， 最 右边 的 
叶子 节点 旁边 写 着 1977。 还 有 许多 内 部 节点 ， 有 三 个 特别 的 节点 分 别 标 着 cf、mh 和 和 sw， 分别 
代表 “Carrie Fisher” “Mark Hamill” 和 “Star Wars”。 这 些 标 签 并 不 是 模型 的 一 部 分 ， 在 这 
里 给 出 只 是 为 了 能 够 方便 地 在 正文 中 引用 这 些 节点 ， 否 则 它们 将 没有 名 字 。 例 如 考虑 节点 sw， 
它 代表 了 概念 “Star Wars”; 该 电影 的 名 称 和 年 份 在 此 给 出 ， 而 其 他 信息 (如 长 度 和 出 演 该 部 
影片 的 影星 ) 没有 给 出 。 口 

从 节点 N 出 发 到 达 节 点 M 的 弧 上 的 标签 上 可 担任 下 面 两 个 角色 之 一 : 

1. 可 认为 N 表 示 的 是 一 个 对 象 或 实体 ， 而 M 表 示 N 的 一 个 属性 ， 那 么 2 表示 该 属性 的 名 字 。 

2. 可 认为 N 和 M 都 是 对 象 或 实体 ，L 就 是 从 N 到 M 的 一 个 联系 的 名 字 。 

例 11.2 再 看 图 11-1。cf 代 表 的 节点 可 以 看 作 是 代表 Carrie Fisher 的 Star 对 象 。 从 这 个 节 
点 出 发 的 一 条 弧 的 标签 是 name ， 它 表示 属性 name 并 且 连 接 到 拥有 正确 名 字 的 叶子 节点 。 另 外 
还 有 两 条 弧 ， 其 标签 都 是 address。 这 两 条 弧 连 接 到 表示 Carrie Fisher 的 两 个 地 址 的 未 命名 节点 。 
这 里 没有 模式 告诉 我 们 影星 是 否 可 以 有 多 个 地 址 ， 如 果 感 觉 合 适 就 可 以 简单 地 把 两 个 地 址 节 
点 放 人 图 中 。 

注意 ， 图 11-1 中 两 个 节点 都 标 着 street 和 city 的 向 外 的 弧 。 而 且 ， 这 些 弧 都 连接 到 带 有 适当 
原子 值 的 叶子 节点 。 可 以 认为 address 节 点 是 带 有 名 为 street 和 city 两 个 域 的 结构 或 对 象 。 但 是 ， 
在 半 结 构 化 模型 中 ， 它 完全 可 以 适当 地 添加 其 他 分 量 ， 例 如 给 某 些 地 址 加 入 邮编 ， 或 者 有 一 
个 或 两 个 域 缺失 。 
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在 图 11-1 中 还 出 现 了 另 一 种 弧 。 例 如 有 一 个 从 cf 节点 出 发 到 sw 节点 、 其 标签 名 为 starsIn 的 
弧 。 节 点 mh (代表 Mark Hamill) 有 一 个 类 似 的 弧 ， 节 点 sw 有 两 个 分 别 到 节点 cf 和 和 mh 和 且 都 标 着 
starOf 的 弧 。 这 些 弧 代 表 的 是 电影 和 影星 之 间 的 联系 (stars-in)。 口 


11.1.3 ”信息 集成 与 半 结 构 化 数据 

半 结 构 化 数据 的 灵活 性 和 自 描述 性 使 其 在 两 个 应 用 中 显得 很 重要 。 它 在 数据 交换 中 的 应 
用 将 在 11.2 节 讨论 ， 这 里 考虑 它 作为 信息 集成 工具 。 因 为 数据 库 已 经 遍布 各 处 ， 所 以 一 个 很 
普遍 的 要 求 就 是 希望 像 在 一 个 数据 库 中 一 样 访问 两 个 或 者 更 多 数据 库 中 的 数据 。 例 如 公司 可 
能 会 合并 ,被 合并 的 公司 都 有 各 自 的 人 事 、 销 售 、 库 存 、 产 品 设计 以 及 许多 其 他 方面 的 数据 
库 。 如 果 相 应 的 数据 库 有 相同 的 模式 ， 那 么 要 合并 它们 就 很 容易 。 例 如 ， 可 以 合并 两 个 模式 
相同 的 关系 中 的 元 组 ， 它 们 在 两 个 数据 库 中 的 角色 相同 。 

但 是 ， 事 情 没 有 那么 简单 。 独 立 开发 的 数据 库 不 太 可 能 有 相同 的 设计 模式 ， 即 便 它们 讨 
论 的 是 相同 的 事情 ， 如 人 事 信 息 。 例 如 ， 一 个 雇员 数据 库 中 可 能 记录 配偶 姓名 ， 而 另 一 个 不 
记录 。 一 个 数据 库 可 能 允许 包含 雇员 的 多 个 地 址 、 电 话 或 电子 邮件 , -而 另 一 个 可 能 只 允许 记 
录 雇 员 的 一 个 地 址 、 电 话 或 电子 邮件 。 一 个 数据 库 可 能 把 顾问 视 为 雇员 ， 而 另 一 个 则 不 会 。 
一 个 数据 库 可 能 是 关系 型 的 ， 而 另 一 个 则 是 面向 对 象 的 。 

问题 可 能 更 复杂 ， 数 据 库 一 般 都 是 持续 运行 在 许多 不 同 的 应 用 中 ， 即 使 可 以 得 出 从 某 一 
模式 到 另 一 模式 数据 转换 的 最 有 效 的 途径 ， 也 不 可 能 将 它 关 闭 并 复制 或 转移 它 的 数据 到 另 一 
个 数据 库 。 这 种 情况 通常 被 称 作 遗留 数据 库 问 题 (legacy-database-problem) ;， 一旦 数据 库存 
在 了 ， 就 不 可 以 将 其 与 应 用 分 开 ， 不 允许 它 中 途 
退役 。 

遗留 数据 库 问题 的 一 种 可 能 的 解决 方案 见 图 
11-2。 图 中 显示 了 两 个 遗留 数据 库 外 加 一 个 接口 ， 
它 也 可 包含 多 个 遗留 数据 库 。 这 两 个 数据 库 都 没 
有 改变 ， 这 样 它们 就 可 以 支持 日 常 应 用 。 

为 了 集成 上 的 灵活 性 ， 接 口 支持 半 结 构 化 数 
据 ， 用 户 可 以 使 用 适 于 该 数据 的 查询 语言 查询 接 
口 。 半 结构 化 的 数据 可 以 通过 翻译 源 数据 来 创 图 11-2 通过 一 个 支持 半 结 构 化 数据 的 接口 集 
建 ， 使 用 一 个 称 作 包 装 器 (wrapper) 或 者 叫做 成 两 个 遗留 的 数据 库 
“适配器 ”(adapter) 的 组 件 ， 它 们 是 为 把 源 数据 翻译 成 半 结 构 化 数据 而 设计 的 。 

或 者 ， 根 本 就 不 存在 接口 处 的 半 结 构 化 数据 。 但 是 用 户 查询 接口 时 仿佛 有 半 结 构 化 数据 
存在 ， 而 接口 通过 把 查询 传递 给 数据 源 来 响应 查询 ， 每 个 查询 引用 在 数据 源 中 找到 的 模式 。 

例 11.3 在 图 11-1 中 可 以 看 见 从 几 个 数据 源 收 集 关于 影星 信息 的 可 能 结果 。 注 意 Carrie 
Fisher 的 地 址 信息 有 一 个 地 址 概念 ， 于 是 该 地 址 被 分 成 street 和 city 两 部 分 。 这 种 情况 与 
Stars(name,address(street，city)) 这 样 的 垦 套 关系 模式 的 数据 大 体 相符 。 

男 一 方面 ，Mark Hamill 的 地 址 信息 根本 没有 地 址 概念 ， 仅 是 street 和 city。 这 样 的 信息 可 
能 源 于 类 似 Stars(name， street，city) 的 设计 模式 ， 这 样 的 模式 仅仅 表示 每 个 影星 的 一 个 
地 址 。 有 一 些 在 图 11-1 中 没有 反映 出 来 但 可 能 存在 的 模式 上 的 其 他 变化 ， 假 设 电影 信息 来 自 几 
个 数据 源 ， 包 括 : 可 选 的 胶片 类 型 、 导 演 、 制 片 人 (可 能 有 多 个 ) 、 所 属 电影 公司 、 税 收 和 该 
电影 当前 放映 地 点 的 信息 等 。 口 
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11.1.4 习题 

习题 11.1.1 由 于 在 半 结 构 化 数据 模型 中 不 用 设计 模式 ， 所 以 不 要 求 你 设计 模式 来 描述 不 同 的 情况 。 不 
过 在 下 面 的 习题 中 ， 将 要 问 你 为 了 表现 某 种 现实 情况 ， 应 当 如 何 组 织 特定 的 数据 : 
a) 在 图 11-1 的 基础 上 增加 信息 : 影片 “Star Wars” 是 由 George Lucas 导 演 并 由 Gary Kurtz 制 作 。 
b) 在 图 11-1 的 基础 上 增加 关于 Empire Strikes Back 和 Return of the Jedi 这 两 部 影片 的 信息 ， 基 中 Carrie 

Fisher 和 Mark Hamill 参 演 了 这 些 影片 。 

0) 在 (b) 的 基础 上 增加 这 些 电影 的 电影 公司 (Fox) 的 信息 和 该 电影 公司 地 址 (Hollywood)。 

习题 11.1.2 如 何 将 习题 4.1.1 中 银行 与 客户 的 典型 数据 用 半 结 构 化 模型 表示 。 

习题 11.1.3 如 何 将 习题 4.1.3 中 队员 、 球 队 和 球迷 的 典型 数据 用 半 结 构 化 模型 表示 。 

习题 11.1.4 如 何 将 习题 4.1.6 中 家 谱 的 典型 数据 用 半 结 构 化 模型 表示 。 

! 习 题 11.1.5 UML 模型 和 半 结 构 化 模型 实际 上 都 是 “图 形 化 的 "， 它 们 都 使 用 了 节点 、 标 签 以 及 节点 间 
的 连接 作为 表达 媒介 。 但 是 这 两 个 模型 有 一 个 本 质 的 区 别 ， 请 指出 这 个 区 别 。 


11.2 XML 


XML (Extensible Markup Language， 可 扩展 标记 语言 ) 是 一 种 基于 标签 的 、 最 初 是 为 
“标记 ”文档 而 设计 的 符号 语言 ， 很 像 大 家 都 熟悉 的 HTML。 现 在， 可 以 用 多 种 方式 表示 有 
XML“ 标 记 ” 的 数据 。 但 是 ， 在 本 节 中 所 指 的 XML 数据 表示 在 一 个 或 多 个 文档 中 。HTML 标 
签 说 的 是 包含 在 文档 中 的 信息 的 表示 方式 〈 例 如 ， 哪 部 分 信息 用 斜体 显示 或 列表 的 项 是 什么 ) ， 
而 XML 标签 想 要 说 的 是 该 文档 各 部 分 的 含义 。 

本 节 将 介绍 XML 的 基本 原理 。 它 与 11.1 节 给 出 的 半 结 构 数据 的 图 形 有 相同 的 结构 。 特 别 
是 其 标签 的 功能 与 半 结 构 化 数据 图 中 弧 上 的 标签 的 功能 相同 。 


11.2.1 语义 标签 

XML 中 标签 是 用 尖 括 号 括 起 来 的 文本 ( 即 <…>), 这 与 HTML 中 一 样 。 而 且 ， 如 同 HTML， 
一 般 情况 下 标签 成 对 出 现 : 有 一 个 形 如 <F00> 的 开始 标签 (opening tag) 和 一 个 配对 的 结束 标 
签 (closing tag)， 它 是 一 个 有 和 斜 线 的 相同 词 ， 形 如 </F00>。 在 匹配 对 <F00> 和 </F00> 之 间 ， 
可 以 有 文本 ， 包 括 有 和 骸 套 HTML 标 签 的 文本 和 任意 数目 的 其 他 肉 套 XML 标签 的 匹配 对 。 一 对 
匹配 标签 和 出 现在 它们 之 间 的 一 切 内 容 称 为 元 素 (element) 。 

XML 还 允许 没有 配对 的 结束 标签 的 单一 标签 。 在 这 一 形式 中 , 该 标签 在 右 尖 括号 前 有 一 条 斜 线 ， 
例如 , 《F00 />。 这 样 的 标签 不 能 有 任何 其 他 元 素 或 内 内 文 本 。 但 是 ， 它 可 以 有 属性 〈 见 112.4 节 )。 


11.2.2 有 模式 和 无 模式 的 XML 

XML 可 以 应 用 于 两 种 不 同 的 模式 : 

1. 格式 规范 (well:formed) 的 XML 人 允许 用 户 自 定义 标签 ， 就 好 像 半 结 构 化 数据 中 的 弧 标 
签 一 样 。 这 个 模式 与 半 结 构 化 数据 十 分 相符 ， 因 为 没有 预定 义 模 式 ， 并 且 每 个 文档 自由 使 用 
其 作者 想 要 的 标签 。 当 然 标签 必须 遵守 风 套 规划， 否则 该 文档 不 是 格式 规范 的 。 

2. 合法 (valid) 的 XML 包括 一 个 DTD， 或 “文档 类 型 定义 ”( 见 11.3 节 ) ， 它 指定 了 允许 
使 用 的 标签 并 给 出 了 如 何 骨 套 它 们 的 语法 。 这 种 形式 的 XML 是 严格 模式 模型 《如 关系 模型 ) 
与 半 结 构 数据 的 完全 无 模式 模型 之 间 的 一 个 折 中 。 在 11.3 节 将 看 到 DTD 通 常 比 传统 的 模式 更 
加 灵活 ， 比 如 DTD 常 常 允许 可 选 的 或 者 丢失 的 域 。 


11.2.3 格式 规范 的 XML 
对 格式 规范 的 XML 的 最 小 要 求 是 该 文档 以 一 个 XML 声明 开始 ， 同 时 有 一 个 根 元 素 (root 
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element)， 它 是 文本 的 整个 主体 。 因 此 ， 格 式 规范 的 XML 文 档 有 一 个 外 部 结构 ， 形 式 如 下 : 


<? Xml version = "1.0" encoding = "utf-8' standalone = "yes" ?> 
<SomeTag> 


</SomeTag> 
第 一 行 表明 文件 是 XML 文档 。 编 码 UTF-8 (UTF 是 Unicode Transformation Format 的 缩写 


形式 ) 是 文档 中 常见 的 字符 编码 ， 因 为 它 兼容 ASCII， 并 且 每 个 ASCII 字 符 仅 使 用 一 个 字 节 。 
属性 standalone ="yes" 说 明 本 文档 没有 DTD ， 即 本 文档 是 一 个 格式 规范 的 XML。 注 意 ， 这 


<? xml version = "1.0" encoding = "utf-8" standalone = "yes" ?> 
<StarMovieData> 
<Star> 
<Name>Carrie Fisher</Name> 
<Address> 
<Street>123 Maple St.</Street> 
<City>Hollywood</City> 
</Address> 
<Address> 
<Street>5 Locust Ln.</Street> 
<City>Malibu</City> 
</Address> 
</Star> 
<Star> 
<Name>Mark Hamill</Name> 
<Street>456 0ak Rd.</Street> 
<City>Brentwood</City> 
</Star> 
<Movie> 
<Title>Star Wars</Title> 
<Year>1977</Year> 
</Movie> 
</StarMovieData> 








图 11-3 一 个 关于 电影 和 影星 的 XML 文档 


例 11.4 ”图 11-3 是 一 个 与 图 11-1 中 数据 基本 对 应 的 XML 文档 。 特 别 地 ， 它 与 半 结 构 化 数据 
的 树 形 部 分 对 应 一 一 根 、 所 有 节点 和 除 刷 点 ef、mh、sw 之 则 的 “ 侧 ” 弧 之 外 的 所 有 的 弧 。 在 
11.2.4 节 中 将 看 到 它们 是 如 何 表 示 的 。 

根 元 素 是 StarMovieData。 在 这 一 元 素 内 可 见 两 个 元 素 ， 每 个 都 是 以 标签 <Star> 开 始 并 以 
它 的 配对 标签 </Star> 结 束 。 在 每 个 元 素 内 是 | <star> 


给 出 该 影星 名 字 的 子 元 素 。 对 于 Carrie Fisher wedi ih i ep 

这 一 元 素 ， 也 有 两 个 子 元 素 ， 每 个 子 元 素 给 <City>Brentwood</City> 

了 她 家 的 一 个 地 址 。 这 些 元 素 都 由 <Address> i es 

开始 标签 和 与 它 配 对 的 结束 标签 来 描述 。 对 于 <Year>1977</Year> 

Mark Hamill 这 一 元 素 ， 仅 有 一 个 街道 子 元 素 ee 

和 一 个 城市 子 元 素 ， 而 且 没 有 使 用 <Address> <Title>Empire Strikes Back</Title> 


标签 来 组 合 它们 。 这 一 差别 也 出 现在 图 11-1 中 。 A 


</Movie> 


还 有 一 个 有 开始 标签 <Movie> 和 与 其 配对 的 结 | </star> 
束 标签 的 元 素 。 这 一 元 素 有 电影 的 名 称 和 年 份 图 11-4 在 影星 内 众人 入 电影 
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的 子 元 素 。 

注意 ， 图 11-3 所 示 的 文档 并 不 表示 电影 和 影星 之 间 的 Stars-In 联 系 。 男 外 可 以 通过 在 影星 元 素 
内 包含 他 们 电影 的 名 称 和 年 份 来 指出 一 个 影星 的 电影 。 图 11-4 是 这 种 表示 的 一 个 例子 。 口 
11.2.4 属性 


像 在 HTML 中 一 样 ， 一 个 XML 元 素 可 以 在 它 的 开始 标签 中 有 属性 (名 称 -数值 对 )。 属 性 
是 另 一 种 表示 半 结 构 化 数据 叶子 节点 的 方法 。 类 似 标 签 ， 属 性 可 以 在 半 结 构 化 数据 图 中 表示 
成 被 标注 的 弧 。 属 性 还 可 以 用 于 表示 像 图 11-1 中 的 “ 侧 ” 弧 ，。 

例 11.5 标注 为 sw 的 电影 节点 的 子 节点 title 和 year 可 以 在 <Movie> 元 素 中 直接 表示 ， 而 不 
用 嵌 夺 元素 表 示 。 也 就 是 说 ， 可 把 图 11-3 的 <Movie> 元 素 替 换 为 : 

<Movie year ="1977"> <Title>Star Wars</Title></Movie> 

还 可 以 把 两 个 子 节 点 都 当成 属性 : 

<Movie title = "Star Wars' year ="1977"></Movie> 
或 

<Movie title = "Star Wars'" year ="1977"/> 


注意 ， 这 里 使 用 了 没有 配对 的 结束 标签 的 单一 标签 ， 这 已 在 结尾 处 用 斜 线 指明 。 吕 


11.2.5 连接 元 素 的 属性 

属性 的 一 个 重要 用 途 是 在 一 个 非 树 形 的 半 结 构 化 数据 图 中 表示 连接 。 在 11.3.4 节 中 将 看 到 
如 何 将 某 些 属性 声明 为 它们 元 素 的 标识 符 ， 还 会 看 到 如 何 声明 其 他 属性 引用 这 些 元 素 标识 符 。 
现在 ， 仅 来 看 一 个 如 何 使 用 这 些 属性 的 例子 。 

例 11.6 图 11-5 可 以 认为 是 图 11-1 的 半 结 构 化 数据 图 在 XML 中 的 准确 表示 。 但 是 为 了 理解 ， 
还 需要 有 足够 的 模式 信息 ， 以 确定 属性 starID 是 它 所 在 元 素 的 标识 符 。 也 就 是 说 ，cf 是 第 一 


<? xml version = "1.0" encoding = "utf-8'" standalone = "yes'" ?> 
<StarMovieData> 
<Star StarID = "cf" starredIln = "sw'"> 
<Name>Carrie Fisher</Name> 
<Address> 
<Street>123 Maple St.</Street> 
<City>Hollywood</City> 
</Address> 
<Address> 
<Street>5 Locust Ln.</Street> 
<City>Malibu</City> 
</Address> 
</Star> 
<Star StarID = "mh’ starredIn = "sw"> 
<Name>Mark Hamill</Name> 
<Street>456 0ak Rd.</Street> 
<City>Brentwood</City> 
</Star> 
<Movie movieID = "sw" Stars0f = "cf mh"> 
<Title>Star Wars</Title> 
<Year>1977</Year> 
</Movie> 
</StarMovieData> 





图 11-5 添加 stars-in 信 息 到 XML 文 档 
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个 <Star> 元 素 (Carrie Fisher) 的 标识 符 ， 而 mh 是 第 二 个 Star> 元 素 (Mark Hamill) 的 标识 
符 。 同 样 地 ， 必 须 确 定 *Movie> 标 签 内 的 属性 movieID 为 该 元 素 的 标识 符 。 因 此 ， 在 图 11-5 中 
sw 是 单独 的 元 素 <Movie> 的 标识 符 。 

此 外 ， 该 模式 还 必须 说 明 <Star> 元 素 的 属性 starredIn 和 *<Mqvie> 元 素 的 属性 stars0f 是 
对 一 个 或 更 多 ID 的 引用 。 也 就 是 说 ， 对 于 starredIn 在 每 个 Movie> 元 素 中 的 值 Sw 说 明 Carrie 
Fisher 和 Mark Hamill 都 出 演 了 Star Wars。 同 样 地 ，ID 的 列表 cf 和 mh， 即 在 <Movie> 元 素 中 的 
star0f 值 说 明 这 些 影星 都 是 Star Wars 中 的 影星 。 口 


11.2.6 命名 空间 

现实 中 可 能 存在 这 样 的 一 些 情况 : XML 数据 包括 来 自 两 个 或 多 个 不 同 的 数据 源 的 标签 ， 
并 可 能 因此 有 不 一 致 的 名 字 。 例 如 ， 文 本 中 使 用 的 HTML 标 签 和 表示 该 文本 意思 的 XML 标签 
不 能 混淆 。 在 11.4 节 中 ， 将 看 到 XML 模式 如 何 需 要 来 自 两 个 不 同 词汇 表 中 的 标签 。 为 了 在 同 
一 文档 中 区 分 不 同 词汇 表 中 的 标签 ， 可 以 为 一 组 标签 使 用 一 个 命名 空间 (namespace ) 。 

为 了 说 明 一 个 元 素 的 标签 为 某 一 命名 空间 的 一 部 分 ， 可 在 该 元 素 的 开始 标签 中 使 用 属性 
xmlns 。 这 一 属性 使 用 一 个 特殊 形式 ; 

xmlns:name=" URM : 

在 含有 这 一 属性 的 元 素 中 ，name 可 以 修改 任意 一 个 标签 来 说 明 该 标签 属于 这 一 命名 空间 。 
也 就 是 说 ， 可 以 创建 形式 name:tag 的 合法 名 字 ， 这 里 name 是 标签 tag 所 属 的 那个 命名 空间 的 名 字 。 

URI (Universal Resource Identifier， 统 一 资源 标识 符 ) 是 一 个 典型 的 指向 一 个 文档 的 
URL ,该 文档 描述 了 命名 空间 中 的 标签 含义 。 该 描述 不 必 形 式 化 ， 它 可 以 是 一 个 非 形式 的 关 
于 期 望 的 文章 。 它 甚至 可 以 什么 都 不 是 ， 而 仍 服务 于 区 分 具有 相同 名 字 的 不 同 标签 的 目的 。 

例 11.7 ”假定 想 说 明 图 11-5 的 元 素 StarMovieData 中 某 些 标签 属于 文档 infolab. 
stanford.edu/ movies 中 定义 的 命名 空间 。 通 过 使 用 开始 标签 : 


<md:StarMovieData Xmlns :md= 
"http;V/infolab.stanford.edu/movies'> 


为 命名 空间 选择 一 个 类 似 md 的 名 字 。 其 含义 是 5tarMovieData 自 身 是 这 一 命名 空间 的 一 部 分 ， 
所 以 它 获 得 前 缀 md: ， 它 的 结束 标签 /md:StarMovieData 也 是 一 样 。 在 这 一 元 素 内 部 ， 通 过 用 
md: 在 它们 的 开始 标签 和 结束 标签 加 前 级， 从 而 获得 判定 子 元 素 的 标签 是 否 属于 这 一 命名 空间 
的 选 顶 。 


11.2.7 XML 和 数据 库 

在 XML 中 编码 的 信息 不 总 是 想 保存 在 数据 库 中 。 对 于 计算 机 来 说 ， 通 过 Internet 使 用 XML 
元 素 的 形式 传递 消息 来 共享 数据 已 成 为 普遍 现象 。 尽 管 可 能 是 使 用 来 自 数据 库 的 数据 生成 消 
息 ， 并 且 在 接收 结束 时 将 它们 作为 数据 库 中 的 元 组 存储 ， 这 些 消 息 的 存在 时 间 还 是 非常 短 。 
例如 ， 图 11-5 中 的 XML 数 据 可 能 被 转换 为 一 些 元 组 插入 到 正在 运行 的 电影 数据 库 实例 的 关系 
MovieStar 和 StarsIn 中 。 

但 是 ， 传 统 关系 数据 库 应 用 中 使 用 XML 的 现象 正 变 得 逐步 普遍 。 例 如 ， 在 11.1.3 节 中 讨论 
过 企业 数据 集成 系统 如 何 产 生 多 个 数据 库 的 整合 视图 。XML 正 在 成 为 一 个 重要 的 表示 这 些 视 
图 的 方法 ， 以 此 作为 由 关系 或 对 象 类 所 组 成 视图 的 另 一 方法 选择 。 然 后 整合 的 视图 使 用 一 种 
专门 的 XML 查询 语言 来 访问 ， 这 将 在 第 12 章 中 讨论 。 

当 在 数据 库 中 存储 XML 时 ， 必 须 讨论 访问 信息 的 效率 需求 ， 尤 其 是 对 于 非常 大 的 XML 文 
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档 或 非常 大 的 小 文档 集合 。 关 系 DBMS 提 供 索 引 和 其 他 工具 使 访问 有 效 ， 这 是 在 8.3 节 中 讨 
论 过 的 话题 。 有 两 种 提供 有 效 性 的 XML 存储 方法 ; 

1. 以 解析 形式 存储 XML 数据 ， 并 提供 一 个 工具 库 以 该 形式 导航 数据 。 两 个 通用 标准 被 称 
为 SAX (Simple API for XML) 和 DOM (Document Object Model) 。 

2. 把 文档 和 它们 的 元 素 表 示 为 关系 ， 并 使 用 传统 关系 DBMS 来 存储 它们 。 

为 了 把 XML 文档 表示 为 关系 ， 首 先 应 该 为 每 个 文档 和 那些 文档 的 每 个 元 素 分 配 一 个 唯一 
的 卫 。 对 于 文档 ，ID 可 以 是 它 的 URL 或 在 文件 系统 中 的 路 径 。 一 个 可 能 的 关系 数据 库 模 式 是 : 


DocRoot (docID, rootElementID) 

SubElement (parentID, childID, position) 
ElementAttribute(elementID, name, value) 
ElementValue(elementID, value) 


这 一 模式 适合 遵守 每 个 元 素 仅 包含 文本 或 仅 包含 子 元 素 这 一 约束 的 文档 。 给 元 素 提供 文 
本 和 子 元 素 的 混合 内 容 (mixed content) 留 下 作为 一 个 习题 。 

第 一 个 关系 DocRoot 把 文档 ID 和 它们 根 元 素 的 ID 联系 起 来 。 第 二 个 关系 SubE1ement 把 元 
素 ( 父 ”) 和 每 个 它 紧 挨 着 的 子 元 素 (“ 子 ”) 连接 起 来 。SubE1ement 的 第 三 个 属性 给 出 该 父 
元 素 的 所 有 子 元 素 中 该 子 元 素 的 位 置 。 

第 三 个 关系 ElementAttribute 把 元 素 和 它们 的 属性 联系 起 来 ， 每 个 元 组 给 出 元 素 的 一 个 
属性 的 名 字 和 值 。 最 后 ，ElementValue 与 那些 没有 子 元 素 的 元 素 相关 ， 这 些 元 素 如 果 有 子 元 
素 ， 则 子 元 素 被 包含 在 那个 元 素 中 。 

有 一 个 小 问题 ， 属 性 和 元 素 的 值 可 以 有 不 同类 型 ， 例 如 ， 整 数 或 字符 串 ， 而 每 个 关系 属 
性 有 唯一 类 型 。 可 以 将 两 个 名 为 value 的 属性 看 作 字符 串 ， 然 后 当 处 理 数据 时 适当 地 说 明 这 些 
字符 串 是 整数 还 是 其 他 类 型 。 或 者 把 最 后 两 个 关系 分 割 成 有 不 同 数据 类 型 的 多 个 关系 。 


11.2.8 习题 

习题 11.2.1 使 用 XML 重新 做 习题 11.1.1。 

习题 11.2.2 ”证 明 任意 一 个 关系 都 可 以 用 XML 文档 表示 。 提 示 : 为 每 个 元 组 创建 一 个 元 素 ， 同 时 为 该 
元 组 的 每 个 分 量 创建 子 元 素 。 

! 习 题 11.2.3 怎样 表示 11.2.7 节 数据 库 模 式 中 的 空 元 素 ( 它 既 没 有 文本 也 没有 子 元 素 ) ? 

! 习 题 11.2.4 ”在 11.2.7 节 中 给 出 了 表示 没有 混合 内 容 (mixed content) 的 文档 的 数据 库 模 式 一 一 包含 文 
本 (#PCDATA) 和 子 元 素 混 合 的 元 素 。 当 元 素 可 以 有 混合 内 容 时 ， 指 出 应 怎样 修改 该 模式 。 


11.3 文档 类 型 定义 


为 了 让 计算 机 自动 处 理 XML 文 档 ， 让 文档 有 类 似 于 设计 模式 的 信息 很 有 帮助 。 知 道 哪 些 
种 类 的 元 素 可 以 出 现在 文档 集中 以 及 标签 如 何 被 典 套 是 很 有 用 的 。 这 种 模式 的 描述 由 称 为 文 
档 类 型 定义 (document type definition) 或 称 为 DTD 的 类 似 于 语法 的 规则 集 给 出 。 使 用 DTD 的 
主要 意图 是 ， 想 要 共享 数据 的 公司 或 者 团体 可 以 各 自 创 建 描述 他 们 共享 数据 格式 的 DTD， 从 
而 建立 其 元 素 语义 的 共享 视图 。 例 如 ， 可 以 使 用 一 个 DTD 来 描述 蛋白 质 结 构 ， 也 可 以 使 用 一 
个 DTD 来 描述 汽车 部 件 的 采购 和 和 销售， 等 等 。 


11.3.1 DTD 的 格式 
DTD 的 总 体 结构 是 ; 


日 ”回顾 XML 数 据 根本 不 需要 采用 文档 的 形式 〈 即 带 根 元素 的 头 )。 例 如 ，XML 数 据 可 以 是 没有 头 的 元 素 流 。 
但 是 ， 本 书 中 将 继续 将 “文档 ”说 成 是 XML 数据 。 


萝 11 竟 ”并 结 榴 化 数据 模型 297 


< !D0CTYPE 根 标签 [ 
《<1ELEMENT 元 素 名 (分量)> 
更 多 元 素 
ble 
开始 的 根 标签 和 与 其 配对 的 结束 标签 之 间 包 括 符合 该 DTD 定 义 规 则 的 整个 文档 。 
由 ! ELEMENT 引 入 的 元 素 声 明 给 出 用 于 括 起 表示 该 元 素 的 文档 部 分 的 标签 ， 同 时 还 给 出 一 
个 圆 括 号 括 起 的 “分 量 ” 列 表 。 圆 括号 中 的 分 量 是 所 描述 的 元 素 中 可 以 或 者 必须 出 现 的 元 素 。 
对 每 个 分 量 有 确切 要 求 的 定义 方式 将 很 快 介 绍 。 
有 两 个 重要 的 分 量 特例 : 
1. 元 素 名 字 后 面 的 (#PCDATA) (“parsed character data”， 解 析 过 的 字符 数据 ) 意 指 该 元 
素 有 一 个 文本 值 ， 并 且 其 中 没有 和 仍 套 元 素 。 解 析 过 的 字符 数据 可 被 认为 是 HTMEL 文 本 。 文 本 
中 可 以 有 格式 化 信息 ， 特 殊 字符 如 < 必须 用 &lt 替 换 ， 这 与 HITML 编 码 相 似 。 例 如 ; 
<IELEMENT Title (#PCDATA)> 
说 明 在 标签 <Titie> 和 </Tit1ie> 之 间 可 出 现 字 符 串 。 但 是 ， 任 何 嵌 套 的 标签 不 是 XML 的 一 部 
分 ， 例如， 它们 可 以 是 HTML。 
2. 没有 用 圆 括 号 的 保留 字 EMPTY 表 示 元 素 是 无 配对 结束 标签 的 元 素 之 一 。 它 既 没有 子 元 素 ， 
也 没有 文本 值 。 例 如 : 


<!IDOCTYPE Stars [ 
) 
SELEMENT 了 oo EMPTY> <!ELEMENT Stars (Star*)> 


<!IELEMENT Star (Name, Address+, Movies)> 


说 明 标 签 Foo 可 以 出 现 的 唯一 方式 是 
<Foo/>。 

例 11.8 图 11-6 中 是 关于 影星 的 一 个 
DTDS。DTD 的 名 字 和 根 元 素 是 Stars。 
第 一 个 元 素 定 义 是 说 在 标签 对 
<STARS> . . .</STARS> 之 间 可 发 现 零 个 或 多 
个 Star 元 素 ， 每 个 star 元素 表示 单独 一 位 
影星 。 其 中 (Star* ) 中 的 * 号 代表 “ 零 或 多 
个 "， 也 就 是 任意 多 个 。 


<!ELEMENT Name (#PCDATA)> 
<!ELEMENT Address (Street, City)> 
<!IELEMENT Street (#PCDATA)> 


<!ELEMENT City (#PCDATA)> 
<1ELEMENT Movies (Movie*)> 
<!ELEMENT Movie (Title, Year)> 
<!IELEMENT Title (#PCDATA)> 
<!IELEMENT Year (#PCDATA)> 





图 11-6 影星 文档 的 DTD 


第 二 个 元 素 是 STAR， 声 明 它 由 三 种 子 元素 组 成 : Name、Address 和 Movies。 这 些 子 元 素 
必须 出 现 ， 并 且 必 须 以 这 个 次 序 出 现 。Address 后 面 的 十 号 表示 ”一 个 或 多 个 "， 也 就 是 说 ， 
对 于 一 位 影星 ， 可 以 有 任意 数量 的 地 址 存在 ， 但 必须 至 少 有 一 个 。Name 元 素 被 定义 为 解析 过 
的 字符 数据 。 第 四 个 元 素 说 明 地 址 元 素 是 由 street 和 city 按 序 出 现 的 两 个 子 元 素 构成 。 

Movies 元 素 被 定义 为 在 其 内 部 可 以 有 零 个 或 者 多 个 Movie 类 型 的 元 素 ， 这 里 * 也 表示 “ 任 
意 多 个 ”。Movie 元 素 由 title 和 year 两 个 元 素 组 成 ， 这 两 个 元 素 都 是 简单 文本 类 型 。 图 11-7 是 


与 图 11-6 中 的 DTD 相 符合 的 文档 例子 。 


轩 


E 元 素 的 分 量 通常 是 一 些 其 他 元 素 ， 这 些 元 素 必须 按 列 出 的 次 序 在 标签 对 <E> 和 </E> 中 出 
现 。 可 是 ， 有 一 些 操作 符号 可 以 控制 元 素 出 现 的 次 数 。 

1. 元 素 后 的 “*” 号 表示 该 元 素 可 以 出 现任 意 多 次 ， 包 括 零 次 。 

2. 元 素 后 的 “+” 号 表示 该 元 素 可 以 出 现 一 次 或 者 多 次 。 

3. 元 素 后 的 “?” 号 表示 该 元 素 只 可 以 出 现 零 次 或 一 次 。 


日 注意 ,图 11-3 的 影星 与 电影 XML 文档 并 不 符合 这 个 DTD。 
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<Stars> 
<Star> 
<Name>Carrie Fisher</Name> 
<Address> 
<Street>123 Maple St.</Street> 
<City>Hollywood</City> 
</Address> 
<Address> 
<Street>5 Locust Ln.</Street> 
<City>Malibu</City> 
</Address> 
<Movies> 
<Movie> 
<Title>Star Wars</Title> 
<Year>1977</Year> 
</Movie> 
<Movie> 
<Title>Empire Strikes Back</Title> 
<Year>1980</Year> 
</Movie> 
<Movie> 
<Title>Return of the Jedi</Title> 
<Year>1983</Year> 
</Movie> 
</Movies> 
</Star> 
<Star> 
<Name>Mark Hamill</Name> 
<Address> 
<Street>456 Dak Rd.</Street> 
<City>Brentwood</City> 
</Address> 
<Movies> 
<Movie> 
<Title>Star Wars</Title> 
<Year>1977</Year> 
</Movie> 
<Movie> 
<Title>Empire Strikes Back</Title> 
<Year>1980</Year> 
</Movie> 
<Movie> 
<Title>Return of the Jedi</Title> 
<Year>1983</Year> 
</Movie> 
</Movies> 
</Star> 
</Stars> 














图 11-7 与 图 11-6 中 DTD 对 应 的 文档 例子 


4. 用 “或 者 ”符号 | 连接 选项 列表 来 表示 仅 能 有 一 个 选项 出 现 。 例 如 ， 如 果 <Movie> 元 素 
有 <Genre> 子 元 素 ， 可 用 表达 式 

<!ELEMENT Genre (Comedy|Dramal|lSciFi|Teen)> 
声明 ， 表 明 每 个 <Genre> 元 素 为 这 四 个 子 元 素 之 一 。 

5. 圆 括号 可 用 来 组 合 分 量 。 例 如 ， 如 果 声 明 地 址 具有 格式 

<!IELEMENT Address(Street, (City|Zip))> 
那么 每 个 <Address> 元 素 可 有 一 个 《Street> 子 元 素 ， 后面 跟 着 <City> 或 CZip> 子 元 素 ， 但 不 能 两 个 都 有 。 
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11.3.2 使 用 DTD 

若 要 一 个 文档 与 一 个 特定 的 DTD 相 一 致 ， 可 以 使 用 如 下 的 任 一 种 方法 : 

a) 在 文档 之 前 包含 DTD。 

b) 在 开始 行 引 用 DTD。DTD 必 须 在 文件 系统 中 分 开 存 放 ， 处 理 文档 的 应 用 程序 应 当 可 以 
访问 到 该 DTD。 

例 11.9 下 面 是 图 11-7 中 的 文档 要 引用 图 11-6 中 DTD 时 ， 必 须 增加 的 内 容 。 


<?xml] version = "1.0" encoding = "utf-8" standalone = "no"?> 
<IDOCTYPE Stars SYSTEM "star.dtd"> 


属性 standalone = “no” 表 示 使 用 了 DTD。 回 顾 当 不 想 为 文档 指定 DTD 时 ， 将 这 个 属 
性 设置 为 “yes”。DTD 文 件 的 位 置 可 以 在 !D0CTYPE 子 句 中 给 出 ， 其 中 保留 字 SYSTEM 后 面 的 文 
件 名 就 是 DTD 的 位 置信 息 。 口 


11.3.3 属性 列表 

DTD 还 可 指定 元 素 可 有 的 属性 及 这 些 属性 的 类 型 。 声 明 格 式 为 : 

<1ATTLIST 元 素 名 属性 名 类 型 > 
该 格式 说 明 命 名 属性 可 以 是 一 个 命名 元 素 的 属性 ， 该 属性 的 类 型 为 被 指明 的 类 型 。 一 个 ATTLIST 语 句 
中 可 以 定义 多 个 属性 ， 但 没 必 要 这 样 做 ， 因 为 ATTLIST 语 句 可 以 出 现在 DTD 中 的 任意 位 置 。 

属性 中 最 常用 的 类 型 是 CDATA。 该 类 型 本 质 上 是 带 有 类 似 于 #PCDATA 中 的 特殊 字符 < 的 字符 
串 数据 。 注 意 ，CDATA 不 像 #PCDATA 那 样 带 一 个 重 击 符号 。 另 一 选择 是 枚 举 类 型 ， 它 是 可 能 字 
符 串 的 列表 ， 由 圆 括号 括 起 来 ， 字 符 串 间 用 “|” 隔 开 。 数 据 类 型 后 可 以 是 保留 字 #REQUIRED 
或 #IMPLIED， 分 别 表 示 该 属性 是 必须 存在 的 ， 或 是 可 选 的 。 

例 11.10 将 名 称 和 年 份 作 为 属性 ， 而 不 是 让 它们 作为 《Movie> 元 素 的 子 元 素 ， 图 11-8 展 示 
了 可 能 的 属性 -列表 声明 。 注 意 ，Movie 现 在 是 一 个 空 元 素 。 指 定 它 有 三 个 属性 : tit1e、 
year 和 genre。 前 两 个 的 类 型 是 CDATA， 而 genre 有 来 自 枚 举 类 型 的 值 。 注 意 在 该 文档 中 ， 值 
(例如 comedy) 同 引 号 一 起 出 现 。 因 此 ， 





<Movie title = "Star Wars' year = "1977" genre = "sciFi" /> 
是 一 个 与 该 DTD 相 符 的 文档 中 可 能 的 电影 元 素 。 口 


<!IELEMENT Movie EMPTY> 
<!ATTLIST Movie 
title CDATA #REQUIRED 


year CDATA #REQUIRED 
genre (comedy | drama | sciFi | teen) #IMPLIED 





> 





图 11-8 与 电影 相关 的 数据 将 作为 属性 出 现 


11.3.4 标识 符 和 引用 

在 11.2.5 节 中 已 讨论 过 ， 某 些 属性 可 以 被 用 作 元 素 的 标识 符 。 在 DTD 中 ， 定 义 这 些 属性 为 1D 
类 型 。 其 他 属性 可 以 有 引用 这 些 元 素 ID 的 值 ， 这 样 的 属性 被 声明 为 1DREF 类 型 。IDREF 属 性 的 值 
必须 是 某 个 元 素 的 某 个 ID 属性 的 值 ， 所 以 IDREF 实 际 上 是 一 个 指向 ID 的 指针 。 另 一 种 方法 是 定 
义 一 个 属性 为 IDREFS 类 型 。 如 果 那 样 的 话 ， 该 属性 的 值 是 由 ID 列表 组 成 并 由 空格 分 隔 的 字符 串 。 
其 结果 是 IDREFS 属 性 把 它 的 元 素 和 一 个 元 素 集合 链接 起 来 一 一 这 组 元 素 由 列表 上 的 卫 标 识 。 
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例 11.11 图 11-9 展 示 了 一 个 影星 和 电影 的 地 位 相同 的 DTD。ID-IDREFS 对 应 用 于 描述 图 
11-1 的 半 结 构 数 据 中 提 到 的 电影 和 影星 <!DOCTYPE StarMovieData [ 





之 间 的 多 对 多 联系 。 该 结构 不 同 于 图 <!ELEMENT StarMovieData (Star*, Movie*)> 
i <!ELEMENT Star (Name, Address+)> 
11-6 中 的 DTD 结 构 ， 因 为 影星 和 电影 有 A a 
着 相同 的 地 位 ， 两 者 都 是 根 元 素 的 子 元 starID ID #REQUIRED 
和 a = starredIn IDREFS #IMPLIED 
素 。 也 就 是 说 ， 这 个 DTD 根 元 素 的 名 字 S 
是 StarMovieData， 它 的 元 素 为 一 系列 <!ELEMENT Name (#PCDATA)> 
本 光 有 5 <!ELEMENT Address (Street, City)> 
影星 加 上 一 系列 的 电影 。 <!ELEMENT Street (#PCDATA)> 
影星 不 再 有 表示 电影 集合 的 子 元 <!ELEMENT City (#PCDATA)> 
es Re <!ELEMENT Movie (Title, Year)> 
素 ， 如 图 ] 1-6 中 DTD 的 例子 所 > Yo 更 确 <1ATTLIST Movie 
切 地 说 , 它 唯一 的 子 元 素 是 名 字 和 地 址 ， movieId ID #REQUIRED 
并 且 在 开始 的 <STAR> 标 签 中 可 以 找到 一 stars0f IDREFS #IMPLIED 
个 类 型 为 IDREFS 的 属性 starredIn， 它 <“!ELEMENT Title (#PCDATA) > 


<!ELEMENT Year (#PCDATA)> 





的 值 是 该 影星 出 演 电影 的 ID 列表 。 
<Star> 元 素 还 有 一 个 属性 starID。 
值 可 以 被 Movie> 元 素 引 用 ， 以 表示 该 影片 中 的 影星 。 也 就 是 说 ， 当 看 图 11-9 的 Movie 属 性 列 
表 时 ， 可 看 到 有 一 个 类 型 为 ID 的 movieId 属 性 ， 就 是 在 列表 上 出 现 的 ID ， 它 们 是 starredIn 元 
素 的 值 。 对 称 地 ，Movie 的 starsof 属 性 类 型 为 IDREFS， 是 影星 的 ID 列表 。 口 


<“?xml version = "1.0" encoding = "utf-8" standalone = "yes" ?> 





























<StarMovieData> 
<Star starID = "cf" starredIn = "sw"> 
<Name>Carrie Fisher</Name> 
<Address> 


<Street>123 Maple St.</Street> 
<City>Hollywood</City> 





</Address> 
<Address> 
<Street>5 Locust Ln.</Street> 
<City>Malibu</City> 
</Address> 
</Star> 
<Star starID = "mh'" starredln = "sw"> 
<Name>Mark Hamill</Name> 
<Address> 


<Street>456 0ak Rd.</Street> 
<City>Brentwood</City> 
</Address> 
</Star> 
<Movie movieID = "sw'" stars0f = "cf mh'"> 
<Title>Star Wars</Title> 
<Year>1977</Year> 
</Movie> 
</StarMovieData> 


图 11-10 添加 stars-in 信 息 到 XML 文 档 


11.3.5 习题 
习题 11.3.1 将 以 下 情况 增加 到 图 11-10 中 : 
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a) Carrie Fisher 和 Mark Hamill 同 样 出 演 了 电影 The Empire Strikes Back (1980) 和 Return of the Jedi 
(1983), 
b) Harrison Ford 同样 出 演 了 Star Wars、(a) 中 提 到 两 部 影片 和 电影 Firewall (2006 ) 。 
cj Carrie Fisher 同 样 出 演 了 影片 Hannah and Her Sisters (1985 ) 。 
d) Matt Damon 同样 出 演 了 影片 The Bourne Identity (2002)。 
习题 11.3.2 为 习题 4.1.1 中 描述 的 银行 和 客户 的 典型 数据 设计 一 个 DTD。 
习题 11.3.3 为 习题 4.1.3 中 描述 的 队员 、 球 队 和 球迷 的 典型 数据 设计 一 个 DTD。 
习题 11.3.4 为 习题 4.1.6 中 描述 的 家 谱 的 典型 数据 设计 一 个 DTD。 
! 习 题 11.3.5 ”使 用 习题 11.2.2 的 表示 ， 设 计 一 个 对 任意 关系 模式 (关系 名 和 属性 名 列表 ) 产生 一 个 描述 
表示 该 关系 的 文档 DTD 的 算法 。 


11.4 XML 模式 


XML 模式 (XML Schema) 是 另 一 种 为 XML 文档 提供 模式 的 方法 。 它 的 功能 比 DTD 更 强 
大 ， 给 模式 设计 者 提供 了 更 多 的 性 能 。 例 如 ，XML 模 式 允 许 对 子 元 素 值 的 数量 给 以 限制 。 对 
于 简单 元 素 ， 它 允许 声明 类 型 ， 如 整 型 或 浮 点 型 ， 并 且 还 给 予 声明 键 和 外 键 的 能 力 。 


11.4.1 XML 模式 的 格式 
XML 模式 的 模式 摘 述 本 身 是 一 个 XML 文档 。 它 使 用 的 命名 空间 在 URL: 
http://www.w3.org/2001/XMLSchema 
该 URL 由 World-Wide-Web Consortium (万 维 网 联盟 ) 提供 。 因 此 每 个 XML 模 式 文档 有 格式 : 


<? Xml version = "1.0" encoding = "utf-8" ?> 
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"> 


Se reckon 

第 一 行 表 明 是 XML， 并 使 用 了 特殊 括号 “<?” 和 “?>”。 对 于 该 模式 文档 ， 第 二 行为 根 标 
签 。 属 性 xmlns (XML 命名 空间 ) 使 变量 xs 代 表 上 述 提 到 的 XML 模 式 的 命名 空间 。 该 命名 空 
间 使 标签 <xs :schema> 被 认为 是 XML 模 式 命名 空间 中 的 schema。 如 同 在 11.2.6 节 中 讨论 过 的 ， 
限定 每 个 XML 模式 术语 都 带 有 前 绥 xs: ， 这 将 使 每 个 这 样 的 标签 都 被 按照 XML 模式 规则 理解 。 
在 开始 标签 *xs:schema> 和 与 它 匹配 的 结束 标签 /xs:schema> 之 间 会 出 现 一 个 模式 。 在 下 文 
中 ， 将 学 习 XML 模 式 命 名 空间 中 最 重要 的 标签 和 它们 的 含义 。 


11.4.2 ”元素 

模式 的 一 个 重要 分 量 是 元 素 (element) ， 它 与 DTD 中 的 元 素 定 义 相 似 。 在 接 下 来 的 讨论 
中 应 当 注 意 ， 因 为 XML 模式 定义 是 XML 文档 ， 所 以 这 些 模 式 本 身 由 “元 素 ” 组 成 。 但 是 ， 模 
式 本 身 的 每 个 元 素 都 有 一 个 以 xs 开始 的 标签 ， 它 们 不 是 由 该 模式 定义 的 元 素 2 。 在 XML 模式 
中 元 素 定义 的 格式 为 : 

<xs:ielement name = 元 素 名 type = 元 素 类 型 > 

约束 和 /或 结构 信息 

</xs:element> 

元 素 名 字 是 为 正在 定义 的 模式 中 的 元 素 选择 的 标签 。 类 型 可 以 是 简单 类 型 或 复杂 类 型 。 
简单 类 型 包括 常用 的 基本 类 型 ， 如 xs:integer、xs:string 和 xs:boolean。 简 单 类 型 的 元 素 





日 为 了 进一步 帮助 区 分 作为 模式 定义 部 分 的 标签 和 被 定义 的 模式 标签 ， 将 被 定义 的 模式 标签 以 大 写字 母 开头 。 
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可 以 没有 子 元 素 。 
例 11.12 下 面 是 在 XML 模 式 中 定义 的 title 和 year 元 素 : 


<xsa:element name = "Title'" type = "xs:string" /> 
<xs:element name = "Year'" type = "xs:integer" /> 


每 个 <xs:element> 元 素 本 身 都 为 空 ， 所 以 它 可 以 用 没有 配对 的 结束 标签 /> 来 结束 。 第 一 人 
定义 的 元 素 名 为 Tit1e， 它 是 字符 串 类 型 。 第 二 个 元 素 名 为 Year ， 它 是 整 型 。 在 有 <Tit1e> 和 
<Year> 元 素 的 文档 (也许 是 讨论 电影 的 文档 ) 中 ， 这 些 元 素 将 不 但 不 为 室 ， 反 而 后 面 将 跟随 着 
字符 串 (title) 或 整数 (year) 和 一 个 匹配 的 结束 标签 ， 分 别 为 4/Tit1e> 和 </Year>。 口 


11.4.3 复杂 类 型 
XML 模式 中 的 复杂 类 型 (complex type) 可 以 有 多 种 格式 ， 但 最 常用 的 格式 是 序列 元 素 。 
这 些 元 素 要 求 出 现在 给 定 的 序列 中 ， 但 每 个 元 素 的 重复 数量 由 出 现在 元 素 自身 定义 中 的 属性 
min0currs 和 max0ccurs 来 控制 。 这 些 属 性 的 含义 可 想 而 知 ， 即 没有 比 min0ccurs 出 现 次 数 更 
少 的 元 素 可 以 出 现在 该 序列 中 ， 同 时 也 没有 比 max0ccurs 出 现 次 数 更 多 的 元 素 可 以 出 现在 该 序 
列 中 。 如 果 出 现 次 数 大 于 1， 则 它们 都 必须 连续 出 现 。 如 果 这 些 属性 中 的 一 个 或 两 个 都 缺失 ， 
则 默认 是 出 现 一 次 。 为 了 说 明 出 现 次 数 没有 上 界 ， 对 
max0ccurs 使 用 值 “unbounded”， 
序列 元 素 复 杂 类 型 定义 的 格式 如 图 11-11 所 示 。 该 
复杂 类 型 的 名 字 是 可 选 的 ， 但 如 果 正 在 定义 的 模式 的 
一 个 或 多 个 元 素 的 类 型 使 用 这 一 复杂 类 型 ， 则 它 需 要 
有 和 名字 。 另 一 种 方法 是 把 复杂 类 型 定义 放 在 开始 标签 
《xs :element> 和 与 它 配 对 的 结束 标签 之 间 ， 使 该 复杂 类 型 为 元 素 的 类 型 。 
例 11.13 “ 写 一 个 完整 的 XML 一 模式 文档 ， 该 文档 为 电影 定义 了 一 个 非常 简单 的 模式 。 电 
影 文档 的 根 元 素 为 Movies>， 同 时 根 有 零 个 或 多 个 Movie> 子 元 素 。 每 个 《Movie> 元 素 按 次 序 
有 两 个 子 元 素 : 名 称 和 年 份 。 该 XML 一 模式 文档 如 图 11-12 所 示 。 







<xs:complexType name = type name > 
<xs:sequence> 
list of element definitions 
</xs:sequence> 
</xs:complexType> 





图 11-11 定义 序列 元 素 复 杂 











1) <? xml version = "1.0'" encoding = "utf-8" ?> 

2) <xs:schema xmlns:xs = "http://wwuw.w3,org/2001/XMLSchema"> 

3) <xs:complexType name = "movieType"> 

4) <xs:sequence> 

5) <xs:element name = "Title" type = "xs:string" /> 

6) <xs:element name = "Year" type = "xs:integer'" /> 

7) </xs:sequence> 

8) </xs:complexType> 

9) <xs:element name = "Movies"> 

10) <xs:complexType> 

11) <xs:sequence> 

12) <xs:element name = "Movie" type = "movieType" 
minQccurs = "0" max0ccurs = "unbounded" /> 

13) </xs:sequence> 

14) </xs:complexType> 

15) </xs:element> 

16) </xs:schema> 











图 11-12 有 关 电 影 的 XML 模式 
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第 (1) 行 和 第 (2) 行 是 一 个 典型 的 XML 模 式 定义 的 导言 。 第 (3) 到 第 (8) 行 定义 了 一 个 复杂 类 
型 ， 它 的 名 字 是 movieType。 这 一 类 型 由 两 个 名 为 Tit1e 和 Year 的 元 素 组 成 序列 ， 它 们 是 在 图 
11-12 中 见 到 的 元 素 。 类 型 定义 自身 不 创建 任何 元 素 , 但 注意 在 第 12 行 中 如 何 使 用 名 字 
movieType 从 而 使 其 类 型 成 为 Movie 元 素 的 类 型 。 

第 (9) 到 第 (15) 行 定义 了 元 素 Movies。 虽 然 能 为 <!DOCTYPE Movies [ 





这 一 元 素 创建 复杂 类 型 ， 就 像 为 MNovie 一 样 ， 但 却 选 < LELEMENT Movies (Moyiew) 

x 6 <!ELEMENT Movie (Title, Year)> 
择 了 在 其 元 素 自身 定义 中 包括 该 类 型 。 因 此 ， 在 第 <!ELEMENT Title (#PCDATA)> 
(9) 行 定义 了 无 类 型 的 属性 。 而 且 ， 在 第 (9) 行 的 开始 Ss < IELEMENT Year (APCDATA)S 
标签 <xs :element> 和 第 (15) 行 中 它 的 配对 结束 标签 


之 间 出 现 了 元 素 Movies 的 复杂 类 型 定义 。 该 复杂 类 MI TT 
型 没有 名 字 ， 但 它 在 第 (11) 行 被 定义 为 一 个 序列 。 在 这 种 情况 下 ， 该 序列 仅 有 一 种 元 素 ， 即 
Movie， 如 第 (12) 行 说 明 的 那样 。 这 一 元 素 定义 为 movieType 类 型 一 一 即 在 第 (3) 到 第 (8) 行 定义 
的 类 型 。 它 还 被 定义 有 零 到 无 穷 的 出 现 次 数 。 因 此 ， 图 11-12 的 模式 说 明了 与 图 11-13 中 所 示 的 
DTD 一 样 的 事情 。 口 
有 一 些 其 他 构建 复杂 类 型 的 方法 。 
* 可 使 用 xs :a11 代 赫 xs :sequence， 这 意味 着 在 开始 标签 <xs :a11> 和 它 的 配对 结束 标签 之 
则 的 每 个 元 素 必定 以 任意 顺序 出 现 一 次 。 
。 另 外 ， 可 用 xs:choice 替 换 xs:seqduence。 于 是 ， 在 开始 标签 xs:choice> 和 它 的 配对 结 
束 标签 之 间 发 现 的 元 素 之 一 必定 出 现 。 

在 一 个 序列 或 选择 中 的 元 素 可 以 用 min0ccurs 和 max0ccurs 属 性 来 管理 它们 出 现 的 次 数 。 
在 选择 的 情况 下 ， 尽 管 仅 有 一 个 元 素 可 以 出 现 ， 但 如 果 max0ccurs 值 大 于 1， 则 它 可 以 出 现 不 
止 一 次 。xs :a11 的 规则 不 同 ， 它 不 允许 有 非 1 的 max0ccurs 值 ， 但 min0ccurs 可 以 是 0 或 1。 在 
max0Qccurs 为 0 的 情况 下 ， 元 素 根本 不 可 能 出 现 。 


11.4.4 属性 

复杂 类 型 可 以 有 属性 。 也 就 是 说 ， 当 定义 一 个 复杂 类 型 T 时 ， 可 以 包含 元 素 <Xxs: 
attribute> 的 实例 。 当 使 用 7 作为 元 素 E 的 类 型 时 ，E 可 以 有 (或 必须 有 ) 这 一 属性 的 实例 。 
属性 定义 的 格式 是 : 

<xs:attribute name = 属性 名 type = 类 型 名 

关于 属性 的 其 他 信息 /> 

“其 他 信息 ”可 以 包括 像 默认 值 和 用 法 这 样 的 信息 (需要 的 或 可 选 的 

例 11.14 语句 


<xs:attribute name = "year'" type = "xs:integer" 
default = "0" /> 


定义 year 为 整数 类 型 的 属性 。 这 里 不 知道 year 是 什么 元 素 的 属性 ， 它 取决 于 上 述 定 义 被 放置 
在 什么 地 方 。year 的 默认 值 为 90， 意思 是 如 果 在 文档 中 的 元 素 没 有 给 出 year 属 性 值 ， 那 么 year 
的 值 取 0。 





后 者 是 缺 省 ) 。 


<xs:attribute name = "year" type = "xs:integer" 
use = "required' /> 


这 是 属性 year 的 另 一 种 定义 。 而 将 Use 设置 为 required 的 意思 是 ,任何 正 在 定义 的 类 型 元 素 
必须 有 一 个 year 属 性 值 。 口 
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属性 定义 放置 在 复杂 类 型 定义 中 。 在 下 个 例子 中 ， 改 写 例 11.13 使 名 称 和 年 份 是 类 型 
movieType 的 属性 ， 而 不 是 子 元 素 。 


1) <?xml version = "1.0" encoding = "utf-8" ?> 
2) <xs:schema xmlns:xs = "http://www.w3,org/2001/XMLSchema"> 





3) <xs:complexType name = "movieType"> 
4) <xs:attribute name = "title" type = "xs:string" 
use = "required" /> 
5) <xs:attribute name = "year" type = "xs:integer" 
use = "required" /> 
6) </xs:complexType> 
7) <xs:element name = "Movies"> 
8) <xs:complexType> 
9) <xs:sequence> 
10) <xs:element name = "Movie" type = "movieType" 
min0ccurs = "0" max0ccurs = "unbounded" /> 
11) </xs:sequence> 
12) </xs:complexType> 
13) </xs:element> 


14) </xs:schema> 








图 11-14 用 属性 代替 简单 元 素 


例 11.15 ”图 11-14 展 示 了 修改 后 的 XML 模式 定义 。 在 第 (4) 行 和 第 (5) 行 ， 属 性 tit1e 和 
year 定 义 为 movieType 类 型 元 素 的 需要 的 属性 。 当 在 第 (10) 行 定义 元 素 Movie 为 该 类 型 时 ， 每 
个 <Movie> 元 素 必 须 有 titl1e 和 year 值 。 图 11-15 显 示 了 与 图 11-14 类 似 的 DTD 。 口 


11.4.5 受 限 的 简单 类 型 

通过 限制 类 型 的 取 值 可 以 创建 像 整 型 或 字符 串 等 简单 类 型 的 受 限 版 本 。 然 后 这 些 类 型 可 
以 被 用 作 属 性 或 元 素 的 类 型 。 这 里 考虑 两 种 限制 : 

1. 通过 使 用 minInclusive 声 明 下 界 并 使 用 maxInclusive 声 明 上 界 来 限制 数字 的 值 。 

2. 限制 值 为 枚 举 类 型 。 

图 11-16 中 显示 了 一 个 范围 限制 的 格式 。 该 限制 有 一 个 基准 ， 它 可 以 是 一 个 基本 类 型 ( 例 
如 ，xs:string) 或 其 他 简单 类 型 。 

<!DOCTYPE Movies [ 
<!ELEMENT Movies (Movie*)> 


<!ELEMENT Movie EMPTY> 


<xs:simpleType name = type name > 
<!ATTLIST Movie 


<xs:restriction base = base type > 


title CDATA #REQUIRED 


upper and/or lower bounds 
year CDATA #REQUIRED 


</xs:restriction> 
</xs:simpleType> 





图 11-15 与 图 11-14 等 价 的 DTD 图 11-16 范围 限制 的 格式 
例 11.16 ”假定 想 要 限制 电影 的 年 份 不 早 于 1915 年 。 代 替 图 11-12 第 (6) 行 中 元 素 Year 或 图 


日 “inclusive” 的 意思 是 值 的 范围 ， 包 括 所 给 定 的 边界 。 另 外 用 Exc1usive 来 代替 Inclusive， 意 思 是 声明 的 
边界 恰好 在 所 允许 的 范围 之 外 。 
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11-14 第 (5) 行 中 属性 year 的 类 型 xs:integer ， 可 以 如 图 11-17 中 那样 定义 一 个 新 的 简单 类 型 。 
然后 在 上 述 引用 的 两 行 中 用 类 型 movieYearType 来 替代 xs:integer。 

另 一 种 限制 简单 类 型 的 方法 是 提供 枚 举 值 。 单 一 枚 举 值 的 格式 为 : 

<xs:enumeration value = 某 个 值 /> 

限制 可 由 任意 数量 的 这 些 值 组 成 。 

例 11.17 ”设计 一 个 适合 电影 流派 的 简单 类 型 。 在 例子 中 ， 假 定 仅 有 四 种 可 能 的 流派 : 喜 
剧 、 戏 剧 、 科幻 剧 和 儿童 剧 。 图 11-18 展 示 了 如 何 定义 类 型 genreType， 它 可 以 作为 表示 电影 
流派 的 元 素 或 属性 的 类 型 。 


























<xs:simpleType name = "genreType"> 
<xs:restriction base = "xs:string"> 
<xs:enumeration value = "comedy" /> 
<xs:enumeration Value = "drama" /> 


<xs:simpleType name = "movieYearType"> 
<xs:restriction base = "xs:integer"> 
<Xs:minInclusive Value = "1915" /> 


<xs:enumeration value = "sciFi'" /> 
<xs:enumeration value = "teen" /> 
</xs:restriction> 
</ xs:simpleType> 


</xs:restriction> 
</xs:simpleType> 





图 11-17 限制 整数 值 为 大 于 等 于 1915 的 类 型 图 11-18 XML 模式 中 的 枚 举 类 型 


11.4.6 XML 模式 中 的 键 

元 素 可 以 有 键 声明 ， 这 是 说 当 考 虑 某 些 C 类 元 素 时 ， 在 这 些 元 素 内 的 一 个 或 多 个 给 定 的 域 

(fields) 值 唯一 。“ 域 ”这 一 概念 实际 上 十 分 普通 ， 但 最 常用 的 情况 是 一 个 域 为 一 个 子 元 素 或 
一 个 属性 。C 类 元 素 用 “选择 器 ”定义 。 像 域 一 样 ， 选 择 器 可 以 是 复杂 的 ， 但 最 常用 的 情况 是 
一 个 或 多 个 元 素 名 字 的 序列 ， 每 个 元 素 的 子 元 素 都 在 该 元 素 之 前 。 使 用 半 结 构 化 数据 树 术语 ， 
类 是 所 有 那些 从 一 个 给 定 节 点 出 发 通过 跟随 特定 弧 标 签 序列 可 到 达 的 节点 。 

例 11.18 关于 图 11-1 中 的 半 结 构 化 数据 ， 假 定 想 说 明 在 从 根 出 发 通过 跟随 star 标 签 可 到 达 
的 所 有 节点 之 中 ， 跟 随 较 远 的 name 标 签 找到 一 个 唯一 值 。 那 么 “选择 器 ”是 star,“ 域 ”是 
name。 声 明 这 个 键 的 含义 是 在 所 示 的 根 元素 内 ， 不 可 以 有 两 个 同名 的 明星 。 如 果 用 电影 名 字 
来 代替 标题 (tite) ， 那 么 键 声明 将 不 会 阻止 电影 和 明星 有 相同 的 名 字 。 此 外 ， 如 果实 际 上 在 

一 个 文档 中 有 许多 闫 似 图 11-1 的 树 的 元 素 (在 该 图 中 每 个 称 为 “Root” 的 对 象 实 际 上 都 是 单 
个 电影 和 其 影星 )， 那 么 不 同 的 树 可 有 相同 影星 名 字 而 不 违反 键 约束 。 口 
键 声明 的 格式 为 : 
<xs:key name = 键 名 > 
<xs:selector xpath = 路 径 描述 > 
<xs:field xpath = 路 径 描述 > 

</ xs:key> 

如 果 需 要 几 个 域 来 组 成 键 ， 那 么 可 以 有 不 止 一 个 带 有 xs :fie1d 元 素 的 行 。 另 一 种 方法 是 
使 用 元 素 xs:unique 来 代替 xs:key。 不 同 点 是 如 果 使 用 “ 键 "， 那 么 对 于 每 个 由 选择 器 定义 的 
元 素 ， 其 域 必 须 存在 。 但 是 ， 如 果 使 用 “唯一 性 ”， 那 么 其 域 可 以 不 存在 ， 并 且 这 一 约束 仅 是 
说 如 果 域 存在 ， 域 才 唯一 。 

选择 器 路 径 可 以 是 任意 的 元 素 序 列 ， 每 个 元 素 是 前 一 个 元 素 的 子 元 素 。 元 素 名 由 斜 线 分 
开 。 域 可 以 是 选择 器 路 径 上 最 后 一 个 元 素 的 任意 一 个 子 元 素 或 该 元 素 的 一 个 属性 。 如 果 它 是 
一 个 属性 ， 那 么 “at-sign” 在 它 之 前 。 还 有 其 他 选项 ， 事 实 上 ， 选 择 器 和 域 可 以 是 任意 Xpath 
表达 式 。 在 12.1 节 中 将 开始 学 习 Xpath 查 询 语言 。 
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例 11.19 ”在 图 11-19 中 可 看 到 图 11-12 的 详尽 细节 。 为 了 使 电影 有 一 个 非 键 子 元 素 ， 在 
movieType 定 义 中 添加 了 元 素 6enre。 第 (3) 到 第 (10) 行 像 例 11.17 中 一 样 定义 了 genreType。 在 


第 (15) 行 添加 movieType 的 子 元 素 Genre。 


第 (24) 到 第 (28) 行 通过 添加 键 改 变 了 Movies 元 素 的 定义 。 键 的 名 字 为 novieKey; 如 果 它 被 
外 键 引用 ， 则 使 用 该 名 字 ， 这 将 在 11.4.7 节 中 讨论 。 否 则 ， 该 名 字 是 不 相关 的 。 选 择 器 路 径 就 
是 Movie， 它 有 两 个 域 Tit1e 和 Year。 这 个 键 声明 的 意思 是 ， 在 任 一 Movies 元 素 内 ， 在 所 有 它 
的 Movie 子 元 素 之 中 , 没有 两 个 子 元 素 可 以 有 相同 的 名 称 和 相同 的 年 份 , 这 些 值 也 不 可 以 缺失 。 
注意 ， 因 为 在 第 (13) 行 和 第 (14) 行 定义 的 movieType 中 ， 对 于 Tit1e 或 Year 没 有 给 min0ccurs 或 


max0ccurs 定 值 ， 所 以 使 用 默认 值 1， 因 此 每 个 必须 仅仅 出 现 一 次 。 


<? xml Version = "1.0" encoding = "utf-8" ?> 
<xs:schema xmlns:xs = "http://www.w3.org/2001/XNMLSchema"> 


<xs:simpleType name = "genreType"> 
<xs:restriction base = "xs:string"> 
<xs;enumeration value = "comedy" /> 
<xs:enumeration value = "drama' /> 
<xs:enumeration value = "sciFi" /> 
<xs:enumeration Value = "teen" /> 
</xs:restriction> 
</xs:simpleType> 


<xs:complexType name = "movieType"> 
<xs:sequence> 
<xs:element name = "Title" type = "xs:string" /> 
<xs:element name = "Year'" type = "xs:integer" /> 
<xs:element name = "Genre'" type = "genreType" 
min0ccurs = "0" maxQccurs = "1" /> 


</xs:sequence> 
</xs:complexType> 


<xs:element name = "Movies"> 
<xs:complexType> 
<xs:sequence> 
<xs:element name = "Movie" type = "movieType" 
min0ccurs = "0" max0ccurs = "unbounded" /> 
</xs:sequence> 
</xs:complexType> 
<xs:key name = "movieKey"> 
<xs:selector xpath = "Movie" /> 
<xs:field xpath = "Title" /> 
<xs:field xpath = "Year" /> 
</xs:key> 
</xs:element> 


</xs:schema> 
图 11-19 XML 模 式 中 的 电影 模式 


11.4.7 XML 模 式 中 的 外 键 





口 





还 可 以 声明 元 素 有 一 个 或 多 个 引用 其 他 元 素 的 键 的 域 ， 也 许 深 深 地 髓 套 在 它 的 内 部 。 这 
种 能 力 和 DTD 中 的 ID 和 IDREF 相 似 (参见 11.3.4 节 )。 但 是 ， 后 者 是 无 类 型 的 引用 ， 而 在 XML 
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模式 中 的 引用 是 对 元 素 的 特殊 类 型 的 引用 。XML 模 式 中 的 外 键 定 义 的 格式 为 : 

<xs:keyref name = 外 键 名 refer = 键 名 > 

<xs:selector xpath = 路 径 描述 > 
<xs:field xpath = 路 径 描述 > 

</xs:keyref> 

模式 元 素 是 xs :keyref。 外 键 自身 有 一 个 名 字 ， 它 引用 某 个 键 或 唯一 值 的 名 字 。 选 择 器 和 
域 就 是 键 。 

例 11.20 ”图 11-20 显 示 了 元 素 <Stars> 的 定义 。 我 们 已 经 使 用 XML 模 式 风 格 在 使 用 复杂 类 
型 的 元 素 内 部 定义 了 每 个 复杂 类 型 。 因 此 ， 在 第 (4) 到 第 (6) 行 上 一 个 《Stars> 元 素 由 一 个 或 多 
个 <Star> 子 元 素 组 成 。 


1) <? xml version = "1.0" encoding = "utf-8" ?> 
2) <xs:schema xmlns:xs = "http://www.w3.org/2001/XMLSchema"> 
















3) <xs:element name = 'Stars'"> 






4) <xs:complexType> 

































5) <xs:sequence> 
6) <xs:element name = "Star" min0ccurs = "1" 
maxDccurs = "unbounded"> 
7) <xs:complexType> 
8) <xs:sequence> 
9) <xs:element name = "Name" 
type = "xs:string" /> 
10) <xs:element name = "Address" 
type = "xs:string" /> 
11) <xs:element name = "StarredIn" 
min0ccurs = "0" 
max0ccurs = "unbounded"> 
12) <xs:complexType> 
13) <xs:attribute name = "title" 
type = "xs:string" /> 
14) <xe:attribute name = "year" 
type = "xs:integer" /> 
15) </xs:complexType> 
16) </xs:element> 
17) </xs:sequence> 
18) </xs:complexType> 
19) </xs:element> 
20) </xs:sequence> 
21) </xs:complexType> 
22) <xs:keyref name = "movieRef'" refers = "movieKey"> 
23) <xs:selector xpath = "Star/StarredIn' /> 
24) <xs:field xpath = "©title" /> 
25) <xs:field Xpath = "@year" /> 






26) </xs:keyref> 







27) </xs:element> 





图 11-20 带 有 外 键 的 影星 


在 第 (7) 到 第 (11) 行 可 见 每 个 <Star> 元 素 有 三 种 子 元 素 。 它 恰 有 一 个 <4Name>》 子 元 素 、 一 个 
“Address> 子 元 素 和 任意 数量 的 <StarredIn> 子 元 素 。 在 第 (12) 到 第 (1$) 行 中 , 《StarredIn> 元 
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素 没 有 子 元 素 ， 但 它 有 两 个 属性 : tit1e 和 year。 

第 (22) 到 第 (26) 行 定义 了 一 个 外 键 。 在 第 (22) 行 中 这 一 外 键 约 束 的 名 字 是 movieRef， 它 引 
用 图 11-19 中 定义 的 键 moviekey。 注 意 ， 这 一 外 键 是 在 《Stars> 定 义 内 定义 的 。 选 择 器 是 
Star/StarredIn。 也 就 是 说 ， 应 该 查看 Stars> 元 素 的 每 个 CStar> 子 元 素 的 每 个 CStarredIny> 
子 元 素 。 从 那个 <StarredIn> 元 素 中 抽取 出 两 个 域 tit1e 和 year。@ 表 示 这 些 是 属性 而 不 是 子 
元 素 。 这 一 外 键 约束 所 作 的 断言 是 ， 以 这 种 方式 发 现 的 任何 名 称 一 年 份 对 将 作为 它 的 子 元 素 
x<Title> 和 <Year> 的 值 对 出 现在 某 个 <Movie> 元 素 中 。 口 


11.4.8 习题 

习题 11.4.1 给 出 一 个 符合 图 11-12 的 XML 模 式 定义 的 文档 例子 和 一 个 具有 所 有 提 到 的 元 素 但 不 符合 该 
定义 的 文档 例子 。 

习题 11.4.2 重 写 图 11-12 使 其 有 一 个 命名 的 Movies 的 复杂 类 型 和 无 命名 的 Movie 的 类 型 。 

习题 11.4.3 将 图 11-19 和 图 11-20 的 XML 模式 定义 写成 一 个 DTD。 


11.5 小 结 


。 半 结构 化 数据 (Semistructured Data); 这 种 模型 中 ， 数 据 使 用 图 形 来 表示 。 节 点 类 似 于 对 
象 或 属性 的 值 ， 带 标签 的 弧 可 以 将 对 象 与 它 的 属性 值 和 由 联系 连接 的 其 他 对 象 相连 接 。 

。XML: 可 扩展 标记 语言 是 一 个 线性 表示 半 结 构 化 数据 的 WWW Consortium (万 维 网 联盟 ) 
标准 。 

“XML 元 素 (XML Element) : 元 素 由 一 个 开始 标签 <Foo>、 一 个 配对 的 结束 标签 </Foo> 
和 它们 之 间 的 一 切 内 容 组 成 。 出 现 的 内 容 可 以 是 文本 或 嵌 套 到 任意 次 度 的 子 元 素 。 

*。 XML 属性 (XML Attribute) : 标签 中 可 以 有 属性 - 值 对 。 这 些 属性 提供 与 其 相关 元 素 的 
附加 信息 。 

。 文 档 类 型 定义 (Document Type Definition): DTD 是 一 个 定义 XML 元 素 和 属性 的 简单 语 
法 格式 ， 因 此 为 那些 使 用 DTD 的 XML 文档 提供 基础 模式 。 元 素 被 定义 为 含有 子 元 素 序 
列 ， 这 些 元 素 可 被 要 求 仅 出 现 一 次 、 最 多 一 次 、 最 少 一 次 或 任意 次 数 。 元 素 还 可 以 被 定 
义 为 有 一 个 必需 的 和 /或 可 选 的 属性 的 列表 。 

。DTD 中 的 标识 符 和 引用 (Identifier and Reference in DTD's) : 为 了 表示 非 树 形 结构 的 图 ， 
DTD 人 允许 声明 ID 和 IDREF (S$) 类 型 的 属性 。 因 此 元 素 可 被 给 予 一 个 标识 符 ， 该 标识 名 
可 以 被 其 他 的 元 素 引 用 ， 以 建立 一 个 连接 。 

*。 XML 模式 (XML Schema) : 是 为 某 些 XML 文档 定义 模式 的 另 一 种 方法 。XML 模式 定义 
用 XML 本 身 编写 ， 使 用 由 WWW Consortium (万 维 网 联盟 ) 提供 的 命名 空间 中 的 标签 集 。 

"XML 模 式 中 的 简单 类 型 (Simple Type in XML Schema): 提供 像 整 型 和 字符 串 型 等 常用 
的 基本 类 型 。 另 外 的 简单 类 型 可 以 通过 约束 一 个 简单 类 型 来 定义 ， 如 为 值 提 供 值 域 或 枚 
举 所 允许 的 值 。 

“XML 模式 中 的 复杂 类 型 《Complex Type in XML Schema) : 元 素 的 结构 类 型 可 以 被 定义 
为 带 有 最 小 出 现 次 数 和 最 大 出 现 次 数 的 元 素 序列 。 元 素 的 属性 也 可 在 它 的 复杂 类 型 中 定 

。XML 模 式 中 的 键 和 外 键 (Key and Foreign Key in XML Schema) : 一 组 元 素 和 /或 属性 可 

定义 为 在 某 封 闭 元 素 范围 内 有 唯一 值 。 其 他 组 元 素 和 /或 属性 可 定义 为 有 一 个 在 其 他 类 

元 素 内 作为 键 出 现 的 值 。 
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现在 讨论 半 结 构 化 数据 程序 设计 语言 。 这 种 类 型 的 所 有 广泛 应 用 的 语言 都 适用 于 XML 数据 ， 
也 可 以 用 于 用 其 他 方式 表示 的 半 结 构 化 数据 。 本 章 将 学 习 三 种 这 样 的 语言 。 第 一 种 ，XPath， 这 
是 在 半 结 构 化 数据 图 中 描述 相似 路 径 集 的 一 种 简单 语言 。XQuery 是 XPath 的 一 种 扩展 语言 ， 它 仿 
照 SQL 风格 设计 。XQuery 克 许 在 集合 和 子 查 询 上 迭代 ， 很 多 其 他 特征 与 SQL 中 学 习 到 的 相似 。 

本 章 第 三 个 主题 是 XSLT。 该 语言 最 初 是 作为 一 种 转换 语言 开发 ， 它 能 够 重新 构造 XML 文 
档 ， 或 者 把 它们 转换 为 可 打印 (HTML) 文档 。 事 实 上 ， 它 的 表达 能 力 和 XQuery 表 达 式 十 分 
相似 ， 而 且 它 能 够 生成 XML 结果 。 因 此 ，XSLT 可 以 作为 XML 的 查询 语言 。 


12.1 XPath 


本 节 介 绍 XPath。XPath 的 最 新 版 本 是 XPath 2.0， 首 先 讨论 的 是 用 于 这 个 版 本 的 数据 模 
型 ， 该 模型 也 用 于 XQuery 中 。 此 模型 的 作用 类 似 于 “基本 类 型 分 量 的 元 组 包 "， 它 是 在 关系 
模型 中 用 作 关 系 的 值 。 

以 后 的 章节 中 ， 学 习 XPath 路 径 表 达 式 和 它们 的 含义 。 通 常 ， 这 些 表 达 式 允许 从 一 个 文档 
的 元 素 转移 到 它们 的 部 分 或 全 部 的 子 元 素 。 使 用 “ 轴 ”， 还 可 以 用 多 种 方法 在 文档 里 面 移 动 ， 
并 且 能 够 得 到 元 素 的 属性 。 


12.1.1 XPath 数据 模型 

如 同 关 系 模型 ，XPath 假 设 所 有 值 一 一 那些 它 生成 的 和 那些 在 中 间 步 骤 中 构成 的 一 有 相 
同 的 通用 “形式 ”。 在 关系 模型 中 ， 这 种 “形式 ”是 一 个 元 组 包 。 在 一 个 给 定 包 中 的 元 组 都 含 
有 相同 数目 的 分 量 ， 且 每 个 分 量 有 一 个 基本 类 型 ， 如 整 型 或 者 字符 串 。 在 XPath 中 ， 类 似 “ 形 
式 ” 是 项 的 序列 (Sequence of item), 一 个 项 (item) 是 如 下 二 者 之 一 : 

1. 基本 类 型 的 一 个 值 : 例如 ， 整 型 、 实 数 型 、 布 尔 型 或 者 字符 串 类 型 。 

2. 一 个 节点 (node)。 有 多 种 类 型 的 节点 ,但 是 本 书 只 讨论 三 种 : 

a) 文档 (document)。 是 包含 一 个 XML 文 档 的 文件 ， 可 能 由 它们 的 本 地 路 径 名 或 URL 表 示 。 

b) 元 素 (element)。 是 XML 元 素 ， 包 括 它 们 的 开始 标签 、 配 
对 的 结束 标签 以 及 在 开始 标签 和 配对 的 结束 标签 之 间 的 所 有 内 容 
(例如 ， 在 描述 一 个 XML 文档 的 半 结 构 化 数据 的 树 的 下 面 ) 。 

c) 属性 (attribute)。 可 以 在 开始 标签 中 找到 ， 这 在 第 11 章 10.0 





中 讨论 过 。 <Number base = "8"> 
尽管 序列 中 的 项 往往 有 相同 的 类 型 ， 但 实际 上 一 个 序列 中 OSLER 
<Digit>2</Digit> 

不 必 所 有 项 都 是 相同 的 类 型 。 </Number> 


例 12.1 图 12-1 是 五 个 项 的 一 个 序列 。 第 一 个 项 是 整数 10， 
第 二 个 项 是 字符 串 ， 第 三 个 项 是 实数 。 这 些 都 是 基本 类 型 的 项 。 
第 四 项 是 一 个 节点 ， 该 节点 的 类 型 是 “元 素 "。 注 意 ， 该 元 。 “图 12-1 五 个 项 的 一 个 序列 
素 含有 一 个 属性 的 标签 Number 和 含有 标签 Digit 的 两 个 子 元 素 。 最 后 一 项 是 一 个 属性 节点 。 口 


@val=" 10" 
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12.1.2 文档 节点 

虽然 应 用 XPath 的 文档 可 以 来 自 于 不 同 源 ， 但 通常 应 用 XPath 的 文档 是 文件 。 可 以 通过 使 
用 下 面 的 函数 把 一 个 文件 生成 为 一 个 文档 节点 : 

doc( 文 件 名 ) 


指定 的 文件 应 该 是 一 个 XML 文档 。 可 以 通过 用 本 地 名 或 者 URL (如 果 是 远程 文件 ) 来 指 
定 该 文件 。 因 此 ， 文档 节 点 的 例子 包括 : 


doc("movies.xml") - 
doc("/usr/sally/data/movies .xml") 
doc("infolab,.stanford.edu/“hector/movies.xml") 


每 个 XPath 查 询 引 用 一 个 文档 。 在 很 多 情形 下 ， 从 上 下 文 显示 可 知道 该 文档 。 例 如 ， 回 顾 
11.4.6 节 中 XML 一 模式 键 的 讨论 。 使 用 XPath 表达 式 来 指示 一 个 键 的 选择 器 和 字段 。 在 那个 上 
下 文中 ,文档 是 “正在 使 用 模式 定义 的 任何 文档 ”。 


12.1.3 ”路径 表达 式 

典型 地 ， 一 个 XPath 表达 式 从 一 个 文档 的 根 节 点 开始 ， 且 给 出 标签 和 和 斜 线 (/) 的 一 个 序列 ， 
即 /7 1 五 / … 17。 通过 从 一 个 节点 〈 即 文档 ) 组 成 的 项 的 序列 开始 计算 这 个 表达 式 的 值 。 然 后 依 
次 处 理 T, ;>，…。 为 了 处 理 T;， 考 虑 由 先前 标签 产生 的 项 的 序列 (如果 有 的 话 )。 依 次 检查 那些 项 ， 
并 且 找 出 标签 是 Ti 的 所 有 子 元 素 。 按 它们 在 文档 中 的 出 现 顺序 ， 把 那些 项 追加 到 输出 结果 序列 中 。 

作为 特殊 情形 ， 把 文档 的 根 标签 TI 看 作 是 文档 节点 的 “ 子 元 素 ”。 因 此 ， 表 达 式 /TT 生成 含有 一 
个 项 的 序列 ， 该 序列 是 由 文档 整个 内 容 组 成 的 一 个 元 素 节 点 。 差 异 可 能 是 细微 的 ; 在 应 用 表达 式 
/Ti 之 前 ， 用 一 个 文档 节点 表示 文件 ， 在 那个 节点 应 用 /后 ， 用 一 个 元 素 节点 表示 文件 中 的 内 容 。 

例 12.2 假设 文档 是 包含 图 11-5 的 XML 文本 的 一 个 文件 ， 这 里 复制 其 作为 图 12-2。 路 径 表 
达 式 /StarMovieData 生 成 了 一 个 元 素 的 序列 。 当 然 ， 该 元 素 含 有 标签 StarMovieData>， 它 
由 图 12-2 中 除去 第 (1) 行 的 所 有 内 容 组 成 。 

现在 ， 考 虑 路 径 表达 式 


/StarMovieData/Star/Name 


1) <? xml version="1.0" encoding="utf-8" standalone="yes" ?> 
2) <StarMovieData> 
<Star starID = "cf" starredIn = "sw"> 
<Name>Carrie Fisher</Name> 
<Address> 
<Street>123 Maple St.</Street> 
<City>Hollywood</City> 
</Address> 


<Address> 
<Street>5 Locust Ln.</Street> 
<City>Malibu</City> 


</Address> 

</Star> 

<Star starID = "mh" starredIn = "sw"> 
<Name>Mark Hamill</Name> 
<Street>456 0ak Rd.</Street> 
<City>Brentwood</City> 

</Star> 

<Movie moVieID = "sw'" stars0f = "cf mh'> 
<Title>Star Wars</Title> 
<Year>1977</Year> 

</Movie> 

23) </StarMovieData> 


图 12-2 应 用 路 径 表 达 式 的 一 份 XML 文 档 
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当 由 文档 组 成 的 序列 使 用 StarMovieData 标 签 时 ， 如 上 所 讨论 的 那样 ， 可 得 到 由 根 元 素 组 成 
的 序列 。 下 一 步 ， 对 该 序列 使 用 标签 Star， 得 到 含有 标签 5tar 的 StarMovieData 元 素 的 两 个 
子 元 素 。 它 们 分 别 是 从 第 (3) 到 第 (12) 行 的 影星 Carrie Fisher 和 从 第 (14) 到 第 (18) 行 的 影星 Mark 
Hamill。 因 此 ， 路 径 表 达 式 /StarMovieData/Star 的 结果 是 按 上 面 顺序 排列 的 这 两 个 元 素 的 
序列 。 

最 后 ， 对 序列 使 用 标签 Name 。 在 第 (4) 行 ， 第 一 个 元 素 有 一 个 Name 子 元 素 。 在 第 (15) 行 ， 
第 二 个 元 素 有 一 个 Name 子 元 素 。 因 此 ， 序 列 


<Name>Carrie Fisher</Name> 
<Name>Mark Hamill</Name> 


是 对 图 12-2 的 文档 使 用 路 径 表 达 式 /5tarMovieData/Star/Name 的 结果 。 口 


12.1.4 相对 路 径 表 达 式 
在 一 些 上 下 文 环境 中 ， 可 使 用 相对 于 (relative to) 当前 节点 或 者 节点 序列 的 XPath 表达 式 。 
。11.4.6 节 中 ， 讨 论 了 为 选择 器 和 字段 值 定 义 一 个 键 ， 选 择 器 和 字段 值 是 真正 的 相对 于 一 
个 节点 或 者 节点 序列 的 XPath 表达 式 。 
。 例 12.2 中 ， 讨 论 了 在 由 整个 文档 组 成 的 元 素 中 使 用 XPath 表达 式 Star ， 或 者 在 Star 元 素 
的 一 个 序列 中 使 用 表达 式 Name。 
相对 表达 式 不 是 以 斜 线 开始 。 每 个 这 样 的 表达 式 必 须 应 用 在 一 些 上 下 文 环境 中 ， 并 且 从 它 
的 使 用 中 可 以 清楚 是 哪个 上 下 文 。 与 UNIX 文 件 系 统 中 指定 文件 名 和 目录 的 方法 相似 并 非 偶然 。 


12.1.5 路 径 表 达 式 中 的 属性 

路 径 表 达 式 从 根 节 点 开始 ， 沿 着 一 条 有 具体 路 径 〈 标 签 的 序列 ) 找到 文档 里 的 所 有 元 素 。 有 
时 候 ， 用 户 想 找 的 不 是 这 些 元 素 ， 而 是 那些 元 素 的 一 个 属性 的 值 。 这 样 的 话 ， 可 以 通过 前 面 有 
一 个 @ 符 号 的 属性 名 来 结束 路 径 表 达 式 ， 也 就 是 说 ， 路 径 表 达 式 的 形式 是 /Ti/ T2/… /TW/@A。 

这 个 表达 式 结果 的 计算 如 下 : 首先 使 用 路 径 表 达 式 /Ti / 7T;/… / 7, 得 到 元 素 的 一 个 序列 ， 
然后 依次 检查 每 个 元 素 的 开始 标签 ， 找 出 属性 4。 如 果 有 属性 4， 那 么 把 那个 属性 的 值 追 加 到 
形成 结果 的 序列 中 。 

例 12.3 路 径 表 达 式 

/StarMovieData/Star/QstarID 
应 用 于 图 12-2 的 文档 ， 找 到 两 个 Star 元 素 ， 然 后 在 第 (3) 行 和 第 (14) 行 浏览 它们 的 开始 标签 ， 
找到 它们 的 starID 属 性 的 值 。 这 两 个 元 素 都 有 starID 属 性 ， 所 以 结果 序列 是 “cf mh”。 口 


12.1.6 轴 

到 目前 为 止 ， 仅 仅 只 用 了 两 种 方法 导航 半 结 构 化 数据 图 : 从 一 个 节点 到 达 它 的 子 节点 或 
者 到 达 一 个 属性 。 事 实 上 ，XPath 提 供 了 大 量 的 轴 (axes) ， 它 们 是 导航 的 方式 。 其 中 两 种 轴 
是 child (默认 轴 ) 和 attribute，@ 是 attribute 的 缩写 形式 。 在 路 径 表 达 式 的 每 一 步 中 ， 可 以 在 
标签 或 者 属性 名 前 加 一 个 轴 的 名 字 和 两 个 冒号 作为 前 级 。 例 如 ， 

/StarMovieData/Star/Q@starID 
是 下 面 表达 式 的 缩写 形式 : 

/child: :StarMovieData/child: :Star/attribute: :starID 

其 他 一 些 轴 是 父亲 、 祖 先 (实际 上 是 一 个 适当 的 祖先 )、 后 继 (一 个 适当 的 后 继 )、 后 兄 
弟 (右边 的 任 一 个 兄弟 )、 前 兄弟 (左边 的 任 一 个 兄弟 )、 自 身 和 后 继 或 自身 (descendant-or- 
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self)。 后 继 或 自身 轴 用 缩写 形式 /， 且 在 峰 套 的 任 一 层次 都 可 以 从 元 素 的 一 个 序列 访问 到 那些 
元 素 和 它们 所 有 的 子 元 素 。 

例 12.4 ”图 12-2 的 文档 中 ， 看 似 很 难 找到 影星 居住 的 所 有 城市 。 问 题 是 Mark Hamill 居 住 
的 城市 没有 做 套 在 Address 元 素 中 ， 所 以 沿 着 找到 Carrie Fisher 居 住 城市 的 相同 路 径 是 不 可 能 
找到 Mark Hamill 的 居住 城市 。 但 是 ， 路 径 表 达 式 

//City 
找到 任 一 舱 套 层次 的 所 有 City 子 元 素 ， 并 且 按 它们 在 文档 中 出 现 的 次 序 返 回 。 于 是 ， 该 路 径 
表达 式 的 结果 是 序列 ， 

<City>Hollywood</City> 


<City>Malibu</City> 
<City>Brentwood</City> 


分 别 从 第 (7)、(11) 和 (17) 行 获得 。 
也 可 以 在 路 径 表 达 式 中 使 用 // 轴 。 例 如 ， 文 档 含 有 与 影星 无 关 的 城市 信息 (如 工作 室 和 它们 
的 地 址 )， 那 么 确定 城市 是 Star 元 素 的 子 元 素 时 ， 可 以 限制 路 径 。 对 给 定 的 文档 ， 路 径 表 达 式 
/StarMovieData/Star//City 
生成 相同 的 三 个 City 元 素 作为 结果 。 口 
其 他 一 些 轴 也 有 缩写 形式 。 例 如 ，.. 表 示 父 亲 ，. 表 示 自 身 。 另 外 已 经 知道 @ 代 表 属 性 ，/ 
代表 子 。 


12.1.7 表达 式 的 上 下 文 

为 理解 一 个 轴 的 含义 ， 如 父亲 ， 需 要 进一步 探讨 XPath 中 的 数据 视图 。 表 达 式 的 结果 是 元 
素 或 者 基本 值 的 序列 。 然 而 ，XPath 表 达 式 和 它们 的 结果 不 是 独立 存在 的 。 假 设 它们 是 独立 存 
在 的 ， 那 么 寻找 一 个 元 素 的 “父亲 ”就 没有 意义 。 更 准确 地 说 ,通常 有 一 个 上 下 文 ， 表 达 式 
在 上 下 文中 求 值 。 在 上 述 所 有 例子 中 ， 都 是 从 单一 文档 中 抽取 元 素 。 如 果 认 为 某 一 XPath 表 达 
式 结果 中 的 一 个 元 素 是 作为 文档 中 元 素 的 一 个 引用 ， 那 么 在 序列 的 元 素 中 使 用 轴 (如 父亲 、 
祖先 或 者 后 兄弟 ) 就 有 意义 。 

例如 ， 在 11.4.6 节 中 提 到 通过 一 对 XPath 表 达 式 定义 XML 模 式 中 的 键 。 键 约束 适用 于 XML 
文档 ， 这 遵从 包含 约束 的 模式 。 在 模式 本 身 中 ,每 一 个 这 样 的 文档 为 XPath 表达 式 提供 上 下 文 。 
因此 ， 人 允许 在 这 些 表达 式 中 使 用 所 有 XPath 轴 。 


12.1.8 通配符 

不 用 沿 着 一 条 路 径 的 每 一 步骤 指定 一 个 标签 ， 可 以 使 用 一 个 * 来 表示 “任何 一 种 标签 ”。 
同样 地 ， 不 用 指定 一 个 属性 ， 用 @* 表 示 “ 任 何 一 个 属性 ”。 

例 12.5 考虑 路 径 表 达 式 

/StarMovieData/*/data(@*) 
应 用 于 图 12-2 的 文档 。 首 先 ，/StarMovieData/* 得 到 根 元 素 的 每 个 子 元 素 ， 有 三 个 : 两 个 影 
星 和 一 部 电影 。 因 此 ， 该 路 径 表 达 式 的 结果 是 从 第 (3) 到 第 (13) 行 、 第 (14) 到 第 (18) 行 和 第 (19) 
到 第 (22) 行 中 的 元 素 的 序列 。 

可 是 ， 表 达 式 是 寻找 这 些 元 素 的 所 有 属性 的 值 。 因 此 ， 在 这 些 元 素 每 一 个 的 最 外 面 的 标 
签 中 寻找 属性 ， 并 且 按 它们 在 文档 中 出 现 的 顺序 返回 它们 的 值 。 因 此 ， 序 列 

"cf sw mh sw sw cf mh" 


是 XPath 查询 的 结果 。 
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第 (19) 行 中 starsof 属 性 的 值 是 它 自 身 项 的 一 个 序列 一 一 字符 串 cf 和 mh 。XPath 扩 展 其 他 
序列 的 一 部 分 的 序列 ， 所 以 ， 如 上 所 示 ， 所 有 的 项 是 在 “顶层 ”。 也 就 是 说 ， 项 的 序列 不 是 它 
本 身 的 一 个 项 。 口 


12.1.9 路 径 表 达 式 中 的 条 件 

如 同 计算 路 径 表 达 式 的 值 那样 ， 可 以 严格 遵循 路 径 的 一 个 子 集 ， 它 的 标签 匹配 表达 式 中 
的 标签 。 为 此 ， 标 签 后 跟着 一 个 由 方 括号 括 起 来 的 条 件 。 该 条 件 可 以 是 布尔 值 的 任意 条 件 。 
值 可 用 比较 操作 符 ， 如 “=” 或 者 “>="。 和 C 中 一 样 ， 用 “!=” 表 示 “ 不 相等 "。 用 操作 符 or 
或 者 and 连 接 比 较 操 作 符 可 构成 复合 条 件 。 

比较 的 值 可 以 是 路 径 表 达 式 ， 这 种 情况 下 ， 比 较 的 是 由 表达 式 返 回 的 序列 。 比 较 隐 含有 
“存在 判断 ”的 意义 ， 如 果 来 自 每 个 序列 的 任 一 项 对 与 给 定 的 比较 操作 符 相 关 ， 那 么 说 这 两 个 
序列 相关 。 下 面 给 出 一 个 例子 来 解释 这 个 概念 。 

例 12.6 下 面 的 路 径 表 达 式 : 

/StarMovieData/Star[Address /City = "Malibu"] /Name 
返回 在 Malibu 至 少 拥有 一 个 家 的 电影 影星 的 名 字 。 开 始 ， 路 径 表 达 式 /StarMovie Data/Star 
返回 所 有 Star 元 素 的 序列 。 对 于 序列 中 每 一 个 元 素 , 需要 判断 条 件 Address/City =“Malibu” 
的 真 假 。 这 里 ，Address/City 是 一 个 路 径 表 达 式 ， 但 是 ， 如 同 条 件 中 的 任何 一 个 路 径 表 达 式 
一 样 ， 它 是 相对 于 使 用 条 件 的 元 素 计算 表达 式 的 值 。 也 就 是 说 ， 当 解释 该 表达 式 时 ， 假 定 元 
素 是 整个 文档 ， 即 在 该 文档 中 应 用 路 径 表 达 式 。 

从 图 12-2 的 第 (3) 到 第 (13) 行 的 Carrie Fisher 元 素 开始 ， 表 达 式 Address/City 寻 找 杠 套 0 层 
或 更 多 层 含有 City 标 签 的 所 有 子 元 素 。 在 第 (7) 行 和 第 (11) 行 有 两 个 这 样 的 子 元 素 。Carrie 
Fisher 元 素 中 应 用 路 径 表 达 式 Address/City 的 结果 是 序列 : 

<City>Hollywood</City> 

<City>Malibu</City> 
该 序列 中 的 每 一 项 都 与 值 "Malibu" 比 较 。 元 素 类 型 是 一 个 基本 值 时 ， 如 字符 串 ， 该 元 素 可 以 
与 那个 字符 串 做 相等 比较 ， 因 此 第 二 项 符合 比较 要 求 。 结 果 是 第 (3) 到 第 (13) 行 的 整个 Star 元 
素 满 足 该 条 件 。 

当 对 第 (14) 到 第 (18) 行 的 第 二 项 (Mark Hamill) 应 用 条 件 时 ， 找 到 一 个 City 子 元 素 ， 但 
是 它 的 值 与 "Malibu" 不 匹配 ， 该 元 素 与 条 件 不 符 。 这 样 ， 就 只 有 Carrie-Fisher 元 素 是 在 如 下 路 
径 表 达 式 的 结果 中 。 

/StarMovieData/Star[ Address /City = "Malibu"] 

为 完成 例子 给 出 的 XPath 查询 ， 需 要 对 上 述 含 有 一 个 元 素 的 结果 序列 继续 路 径 表 达 式 /Name 的 
查询 工作 。 该 阶段 中 ， 寻 找 Carrie-Fisher 元 素 的 Name 子 元 素 ， 并 在 第 (4) 行 找到 。 从 而 ， 查 询 
的 最 终结 果 是 含有 一 个 元 素 的 序列 ，《Name>Carrie Fisher</Name>。 口 

其 他 几 个 常用 的 条 件 形 式 是 : 

。 整 型 器 自身 为 真 ， 仅 当 应 用 到 它 的 父 节 点 的 第 ; 企 子 节点 时 。 

。 标 签 [自身 为 真 ， 仅 是 对 其 有 一 个 或 多 个 子 元 素 含有 标签 7 的 元 素 。 

。 类 似 地 ， 属 性 [4] 自 身 为 真 ， 仅 是 对 其 含有 属性 4 值 的 元 素 。 

例 12.7 图 12:3 是 电影 例子 的 另 一 种 形式 ， 其 中 用 一 个 共同 片 名 把 所 有 电影 归 为 一 组 ， 作 
为 一 个 Movie 元 素 ， 其 子 元 素 含 有 标签 Yersion。 片 名 是 电影 的 一 个 属性 ， 年 份 是 版 本 的 一 个 
属性 。 版 本 有 Star 子 元 素 。 考 虑 在 该 文档 中 应 用 XPath 查 询 : 
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/Movies/Movie/Version [1]/data(@year) 


这 是 找到 每 部 电影 第 一 版 拍 成 的 年 份 ， 结 果 是 序列 "1933 1984"。 





<? xml version="1.0" encoding='utf-8" standalone="yes" ?> 
<Movies> 





















3) <Movie title = "King Kong"> 

4) <Version year = "1933"> 

5) <Star>Fay Wray</Star> 

6) </Version> 

7) - <Version year = "1976"> 

8) <Star>Jeff Bridges</Star> 
9) <Star>Jessica Lange</Star> 
10) </Version> 

%) <Version year = "2005" /> 

12) </Movie> 

13) <Movie title = "Footloose"> 

14) <Version year = "1984"> 

15) <Star>Kevin Bacon</Star> 
16) <Star>John Lithgow</Star> 
17) <Star>Sarah Jessica Parker</Star> 
18) </Version> 

19) </Movie> 


20) </Movies> 


图 12-3 应 用 路 径 表 达 式 的 一 份 XML 文档 


更 为 详细 地 说 ， 共 有 四 个 Version 元 素 匹配 路 径 
/Movies/Movie/Version 
这 些 元 素 分 别 在 第 (4) 到 第 (6) 行 、 第 (7) 到 第 (10) 行 、 第 (11) 行 和 第 (1 人 4 到 第 (18) 行 。 这 些 元 素 中 ， 第 一 
个 和 最 后 一 个 是 它们 各 自 父 节点 的 第 一 个 子 节 点 ， 它 们 的 year 属 性 分 别 是 1933 和 1984。 口 
例 12.8 XPath 查 询 . 
/Movies/Movie/Version[Star] 
应 用 到 图 12-3 的 文档 , 返回 三 个 Version 元 素 。 条 件 [Star] 解 释 为 “至 少 含有 一 个 Star 子 元 素 ”。 
该 条 件 对 第 (4) 到 第 (6) 行 、 第 (7) 到 第 (10) 行 和 第 (14) 到 第 (18) 行 的 Version 元 素 为 真 ， 对 第 (11) 
行 的 元 素 为 假 。 口 
12.1.10 习题 
习题 12.1.1 图 12-4 和 图 12-5 分 别 是 含有 产品 习题 部 分 数据 的 XML 文档 的 开始 和 结尾 。 写 出 下 面 的 
XPath 查询 ， 并 回答 每 个 查询 的 结果 是 什么 。 
a) 找 出 每 台 PC 上 RAM 的 大 小 。 
b) 找 出 任 一 种 类 型 的 各 个 产品 的 价格 
c) 找 出 所 有 打印 机 元 素 
!d) 找 出 激光 打印 机 的 制造 商 
!e) 找 出 PC 和 /或 笔记 本 电脑 的 制造 商 
f) 找 出 硬盘 至 少 是 200G 的 PC 的 型 号 
!g) 找 出 至 少 有 两 种 PC 的 制造 商 
习题 12.1.2 图 12-6 的 文档 包含 了 类 似 于 战舰 习题 中 使 用 的 数据 。 在 该 文档 中 ， 关 于 舰 船 的 数据 嵌 套 在 
它们 的 类 元 素 中 ， 并 且 关 于 战斗 的 信息 出 现在 每 个 舰 船 元 素 内 。 用 XPath 写 出 下 面 的 查询 。 回 答 每 个 
查询 的 结果 是 什么 。 
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Products> 


<Maker name = 


NAN> 

<PC model = "1001" price = 
<Speed>2.66</Speed> 
<RAM>1024</RAM> 
<HardDisk>250</HardDisk> 

</PC> 

<PC model = "1002" price = "995"> 
<Speed>2.10</Speed> 
<RAM>512</RAM> 
<HardDisk>250</HardDisk> 

</PC> 

<Laptop model = "2004" price = 
<Speed>2.00</Speed> 
<RAM>512</RAM> 
<HardDisk>60</HardDisk> 
<Screen>13.3</Screen> 

</Laptop> 

<Laptop model = "2005" price = 
<Speed>2.16</Speed> 
<RAM>1024</RAM> 
<HardDisk>120</HardDisk> 
<Screen>17.0</Screen> 

</Laptop> 


"2114"> 


"1150"> 


"2500"> 


</Maker> 





图 12-4 产品 数据 的 XML 文档 一 开始 


<Maker name = "了 "> 

<PC model = "101i" price = 
<Speed>1.86</Speed> 
<RAM>2048</RAM> 
<HardDisk>160</HardDisk> 

</PC> 

<PC model = "1012" price = 
<Speed>2.80</Speed> 
<RAM>1024</RAM> 
<HardDisk>160</HardDisk> 


ng959" > 


"649"> 


</PC> 

<Laptop model = "2001" price = 
<Speed>2.00</Speed> 
<RAM>2048</RAM> 
<HardDisk>240</HardDisk> 
<Screen>20.1</Screen> 


</Laptop> 
<Printer model = "3002" price = 
<Color>false</Color> 
<Type>laser</Type> 
</Printer> 
<Maker name = "H"> 
<Printer model = "3006" price 
<Color>true</Color> 
<Type>ink-jet</Type> 
</Printer> 
<Printer model = "3007" price 
<Color>true</Color> 
<Type>laser</Type> 
</Printer> 
</Maker> 
</Products> 


图 12-5 产品 数据 的 XML 文档 一 一 结尾 





"3673"> 


"W939"> 


LL 100"> 


"2900"> 


a) 找 出 所 有 舰 船 的 名 字 。 

b) 找 出 排水 量 大 于 35 000 的 类 的 所 有 C1ass 元 素 。 

c) 找 出 在 1917 之 前 下 水 的 船 的 所 有 Ship 元 素 。 

d) 找 出 已 沉没 舰 船 的 名 字 。 

le) 找 出 和 它们 的 类 有 相同 名 字 的 舰 船 的 下 水 年 份 。 

!f) 找 出 参与 战斗 的 所 有 舰 船 的 名 字 。 
!1g) 找 出 曾 在 两 场 或 两 场 以 上 的 战斗 中 打仗 的 所 有 舰 船 的 Ship 元 素 。 


12.2 XQuery 


XQuery 是 XPath 的 一 种 扩展 ， 它 已 成 为 包含 XML 格式 数据 的 高 级 数据 库 查 询 的 标准 。 本 
节 将 介绍 XQuery 的 一 些 重要 特性 。 
XQuery 的 大 小 写 敏 感性 
XQuery 是 大 小 写 敏 感 的 。 因 此 ， 像 1et 或 者 for 这 样 的 关键 词 需要 小 写 ， 就 像 C 或 Java 


中 的 关键 词 一 样 。 
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<Ships> 
<Class name = "Kongo" type = "bc'" country = "Japany" 
numGuns = "8" bore = "14" displacement = "32000"> 
<Ship name = "Kongo" launched = "1913" /> 
<Ship name = "Hiei" launched = "1914" /> 
<Ship name = "Kirishima" launched = "1915"> 
<Battle outcome = "sunk">Guadalcanal</Battle> 
</Ship> 
<Ship name = "Haruna" launched = "1915" /> 
</Class> 
<Class name = "North Carolina" type = "bb" country = "USA' 
numGuns = "9" bore = "16" displacement = "37000"> 
<Ship name = "North Carolina" launched = "i1941" /> 
<Ship name = "Washington" launched = "1941"> 
<Battle outcome = "ok">Guadalcanal</Battle> 
</Ship> 
</Class> 
<Class name = "Tennessee" type = "bb" country = "USA" 
numGuns = "12" bore = "14" displacement = "32000"> 
<Ship name = "Tennessee'" launched = "1920"> 
<Battle outcome = "ok">Surigao Strait</Battle> 
</Ship> 
<Ship name = "California'" launched = "1921"> 
<Battle outcome = "ok">Surigao Strait</Battle> 
</Class> 
<Class name = "King George V'" type = "bb" 
country = "Great Britain" 
numGuns = "10" bore = "14" displacement = "32000"> 
<Ship name = "King George V" launched = "1940" /> 
<Ship name = "Prince of Wales" launched = "1941"> 
<Battle outcome = "damaged">Denmark Strait</Battle> 
<Battle outcome = "sunk">Malaya</Battle> 
</Ship> 
<Ship name = "Duke of York" launched = "1941"> 
<Battle outcome = "ok">North Cape</Battle> 
</Ship> 
<Ship name = "Howe'" launched = "1942" /> 
<Ship name = "Anson" launched = "1942" /> 
</Class> 
</Ships> 





图 12-6 含有 战舰 数据 的 XML 文档 


12.2.1 XQuery 基 础 

XQnurey 使 用 和 在 12.1.1 节 中 介绍 的 XPath 相同 的 值 模型 。 也 就 是 说 ，XQuery 表 达 式 生成 的 
所 有 的 值 是 项 的 序列 。 项 是 基本 值 或 者 各 种 类 型 的 节点 ， 节 点 包括 元 素 、 属 性 和 文档 。 如 同 
在 12.1.7 节 中 讨论 的 那样 ， 假 定 序列 中 的 元 素 是 存在 于 某 一 文档 的 上 下 文中 。 

XQuery 是 一 种 函数 语言 (functional language) ， 这 意味 着 任何 一 个 XQuery 表 达 式 可 被 用 
于 任何 一 个 期 待 使 用 表达 式 的 地 方 。 这 个 特性 的 功能 非常 强大 。 举 例 来 说 ，SQL 在 很 多 地 方 
允许 使 用 子 查询 ， 但 是 SQL 不 允许 任 一 子 查 询 是 where 子 句 中 任 一 比较 算 符 的 任意 算 子 。 国 数 
特性 是 一 把 双 刃 剑 ， 当 应 用 于 多 个 项 的 列表 时 ， 它 要 求 XQuery 的 每 个 操作 符 有 意义 ， 这 样 导 
致 了 一 些 意外 的 结果 。 

最 简单 的 情况 下 ， 每 个 XPath 表达 式 都 是 一 个 XQuery 表 达 式 。 但 XQuery 有 更 多 的 表达 式 ， 
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包括 FLWR (发 音 为 “flower”) 表达 式 ， 某 种 程度 上 ， 这 与 SQL 的 select-from-where 表 达 式 相似 。 


12.2.2 FLWR 表 达 式 

除 XPath 表 达 式 之 外 XQuery 表 达 式 最 重要 的 形式 包括 四 种 类 型 的 子 句 : for、let、where、 
和 return (FLWR) 子 句 |S。 下 面 将 依次 介绍 每 种 子 句 的 类 型 。 但 是 ， 应 该 知道 这 些 子 名 的 出 
现 和 顺序 有 选择 权 。 

1. 查询 是 以 0 个 或 多 个 for 子 句 和 let 子 名 开始 的 。 这 两 种 类 型 的 子 句 可 以 有 多 个 ， 且 能 以 任 
何 次 序 出 现 ， 例 如 ，for，for，let，for，let。 

2. 然后 是 一 个 可 选择 的 where 子 句 。 

3. 最 后 是 一 个 return 子 句 。 

例 12.9 最 简单 的 FLWR 表 达 式 可 能 是 : 

return <Greeting>Hello World</Greeting> 
该 表达 式 没有 数据 可 检查 ， 只 生成 一 个 值 ， 该 值 是 一 个 简单 的 XML 元 素 。 口 

let 子 名 

let 子 句 的 简单 形式 是 : 

let 变量 := 表达 式 
这 个 子 句 的 含义 是 ， 计 算 表 达 式 的 值 ， 并 将 表达 式 赋值 给 FLWR 表 达 式 提 及 的 变量 。XQuery 
中 的 变量 必须 以 $ 符 号 开头 。 注 意 ， 赋 值 符号 是 :=， 而 不 是 等 于 符号 (等 于 符号 在 比较 中 使 用 ， 
如 在 XPath 中 那样 ) 。 更 一 般 地 ， 给 变量 赋值 可 以 采用 用 喜 号 分 割 的 列表 。 

例 12.10 ”1let 子 句 的 一 个 用 处 是 指定 一 个 变量 引用 一 个 文档 ， 该 文档 数据 将 被 查询 使 用 。 
例如 ， 如 果 想 查询 文件 stars .xml1 中 的 文档 ， 可 以 如 下 所 示 开始 查询 : 

let $stars := doc('stars,.xml') 
这 种 情况 下 ，$stars 的 值 是 一 个 单一 的 doc 节 点 。 它 可 以 用 在 XPath 表达 式 的 前 面 ， 并 且 那 个 
表达 式 将 用 于 包含 在 文件 stars .xm1 中 的 XML 文档 。 口 

for 子 名 

for 子 句 的 简单 形式 是 ; 

for 变量 in 表达 式 
目的 是 计算 表达 式 的 值 。 任 何 一 个 表达 式 的 结果 是 项 的 序列 。 依 次 将 变量 赋值 给 每 一 项 ， 并 且 
对 变量 的 每 一 个 值 执行 一 次 查询 中 的 for 子 句 。 如 果 你 画 出 XQuery 中 for 子 句 和 C 中 for 语 句 之 间 
的 类 似 图 ， 你 将 不 会 失望 。 更 一 般 地 ， 在 一 个 for 子 句 中 可 以 设置 几 个 变量 覆盖 项 的 不 同 序列 。 

例 12.11 本 节 很 多 例子 中 都 将 使 用 图 12-7 中 提 到 的 数据 。 数 据 由 两 个 文件 即 图 12-7a 中 的 
stars.xml 和 图 12-7b 中 的 movies .xml 组 成 。 这 些 文件 中 的 每 一 个 数据 和 12.1 节 中 使 用 的 数据 
相似 ， 但 所 列 出 的 只 是 这 些 文件 真正 内 容 的 一 个 小 的 样本 。 

假设 开始 一 个 查询 : 

let $movies := doc( “movies.xml” ) 


for $m in $movies/Movies/Movie 
. .每 个 Movie 元 素 的 处 理 


@@ 还 有 一 个 将 在 12.2.10 节 介绍 的 order by 子 句 。 为 此 ，FLWR 是 比 FLOWOR 较 少 用 的 XQuery 查 询 的 基本 格式 
的 首 字母 缩写 词 。 
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<? Xml version="1.0" encoding="utf-8" standalone="yes" ?> 
<Stars> 


<Star> 
<Name>Carrie Fisher</Name> 
<Address> 
<Street>123 Maple St.</Street> 
<City>Hollywood</City> 


</Address> 

<Address> 
<Street>5 Locust Ln.</Street> 
<City>Malibu</City> 

</Address> 

</Star> 
. more stars 
</Stars> 





a) 文档 stars .xml 


<? Xml version="1.0" encoding="utf-8" standalone="yes" ?> 
<Movies> 
<Movie title = "King Kong"> 
<Version year = "1933"> 
<Star>Fay Wray</Star> 
</Version> 
<Version year = "1976"> 
<Star>Jeff Bridges</Star> 
<Star>Jessica Lange</Star> 
</Version> 
<Version year = "2005" /> 
</Movie> 
<Movie title = "Footloose"> 
<Version year = "1984"> 
<Star>Kevin Bacon</Star> 
<Star>John Lithgow</Star> 
<Star>Sarah Jessica Parker</Star> 
</Version> 
</Movie> 
... more movies 
</Movies> 





b) 文档 movies .xml 


图 12-7 XQuery 例 子 的 数据 


XQuery 中 的 布尔 值 


$x = 10 这 样 的 比较 值 是 true 或 者 是 false (严格 来 说 ， 它 们 是 XML 模 式 命名 空间 中 的 名 
字 xs:true 或 者 xs:false 之 一 ) 。 可 是 ， 儿 个 其 他 类 型 的 表达 式 也 能 被 解释 为 true 或 者 false， 


于 是 可 以 在 where 子 名 中 出 现 来 作为 条 件 的 值 。 要 记 住 的 重要 几 点 是 : 
1. 如 果 值 是 项 的 序列 ， 那 么 空 序列 解释 为 false， 非 空 序列 为 true。 
2. 数字 中 ，0 和 NaN ("不 是 一 个 数字 "， 是 一 个 无 穷 数 ) 为 false， 其 他 数字 为 true。 
3. 字符 串 中 ， 空 串 为 false， 其 他 串 为 true。 





注意 ，$movies/Movies/Movie 是 XPath 表 达 式 ， 它 告诉 我 们 从 文件 movies .xml 中 的 文档 开始 ， 
然后 到 达 根 Movies 元 素 ， 构 成 所 有 Movies 子 元 素 的 序列 。 要 执行 “for 循 环 ” 体 ， 首 先 $m 等 于 
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图 12-7 中 第 (17) 到 第 (26) 行 的 元 素 ， 然 后 $m 等 于 第 (27) 到 第 (33) 行 的 元 素 ， 接 着 是 文档 中 每 一 
个 剩余 Movie 元 素 。 器 

where 子 名 

where 子 句 的 形式 是 : 

where 条件 
该 子 句 被 用 于 一 个 项 ， 条 件 (condition) 是 一 个 表达 式 ， 其 值 为 true 或 者 false。 如 果 值 是 true， 
那么 返回 子 句 被 用 于 查询 中 任何 变量 的 当前 值 。 否 则 ， 变 量 的 当前 值 没 有 结果 产生 。 

return 子 名 

这 个 子 句 的 形式 是 : 

return 表达 式 
FLWR 表 达 式 的 结果 和 XQuery 中 任何 表达 式 的 结果 一 样 ， 是 项 的 序列 。return 子 句 中 表达 式 生 
成 的 项 的 序列 被 附加 到 目前 为 止 已 经 生成 的 项 序列 。 注 意 ， 虽 然 只 有 一 个 return 子 句 ， 但 该 子 
句 在 “for 循 环 ” 中 可 被 执行 多 次 ， 所 以 查询 的 结果 可 以 是 分 期 构成 。 不 要 把 return 子 句 当 作 一 
个 “return 语 句 ”， 因 为 return 子 句 没 有 结束 查询 的 过 程 。 

例 12.12 通过 寻找 在 所 有 电影 版 本 中 找到 的 所 有 影星 元 素 的 列表 ， 完 成 例 12.11 中 开始 的 
查询 。 查 询 是 : 

let $movies := doc('"movies.xml") 


for $m in $movies/Movies/Movie 
return $m/Version/Star 


“for 循 环 ” 中 $m 的 第 一 个 值 是 图 12-7 中 第 (17) 到 第 (26) 行 的 元 素 。 由 那个 Movie 元 素 可 知 ， 
XPath 表 达 式 /Version/Star 生 成 三 个 Star 元 素 的 序 <Star>Fay Wray</Star> 


列 ， 分 别 在 第 (19)、(22) 和 (23) 行 。 这 个 序列 是 查询 <Star>Jeff Bridges</Star> 
jr <Star>Jessica Lange</Star> 
结果 的 开头 。 <Star>Kevin Bacon</Star> 


$m 的 下 一 个 值 是 第 (27) 到 第 (33) 行 的 元 素 。 现 在 ， <Star>John Lithgow</Star> 
return 子 句 表达 式 的 结果 是 第 (29)、 (30) 和 (31) 行 中 元 <Star>Sarah Jessica Parker</Star> 
素 的 序列 。 因 此 ， 结 果 序 列 的 开头 如 图 12-8 所 示 。 口 一 


12.2.3 通过 变量 的 值 置换 变量 

考虑 修改 例 12.12 的 查询 。 这 里 ， 不 是 要 生成 <Star> 元 素 的 序列 ， 而 是 生成 Movie 元 素 的 
序列 ， 每 一 个 元 素 都 包含 了 给 定 片 名 的 电影 的 所 有 影星 ， 而 不 管 他 们 主演 的 版 本 。 片 名 是 
Movie 元 素 的 一 个 属性 。 

图 12-9 给 出 了 看 起 来 是 正确 的 一 个 尝试 ， 但 事实 上 是 不 正确 的 (is not correct) 。 为 每 个 
$m 值 返回 的 表达 式 看 起 来 是 一 个 <Movie> 开 始 标 签 ， 跟 着 的 是 那 部 电影 的 Star 元 素 序列 ， 最 后 
是 </Movie> 结 束 标签 。<Movie> 标 签 有 一 个 titie 属 性 ， 它 是 文件 movies .xm1 中 Movie 元 素 相 
同属 性 的 一 个 副本 。 然 而 执行 这 个 程序 时 ， 出 现 的 是 : 


序列 中 的 序列 
应 该 提醒 读者 ， 项 的 序列 没有 内 在 结构 。 因 此 ， 图 12-8 中 ， 在 Jessica Lange 和 Kevin 





图 12-8 例 12.12 查 询 结果 序列 的 开头 


Bacon 之 间 ， 或 者 前 三 个 影星 的 任何 分 组 和 最 后 的 三 个 之 间 ， 没 有 分 隔 符 ， 即 使 这 些 分 组 是 
由 return- 子 名 的 不 同 执行 生成 也 如 此 。 
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<Movie title = "$m/@title'">$m/Version/Star</Movie> 
<Movie title = "$m/@title" ‘$m/Version/Star</Movie> 


let $movies := doc('"movies .xm]l') 


for $m in $movies/Movies/Movie 
return <Movie title = "$m/@title">$m/Version/Star</Movie> 





图 12-9 生成 Movie 元 素 的 错误 尝试 


问题 是 ， 在 标签 之 间 ， 或 者 作为 一 个 属性 的 值 ， 任 何 文本 字符 串 都 是 允许 的 。 与 例 12.9 的 
返回 相 比 ， 该 返回 语句 看 起 来 和 XQuery 处 理 器 没有 区 别 ， 真 正 生 成 的 是 匹配 标签 里 面 的 文本 。 
为 得 到 作为 标签 里 面 的 XQuery 表 达 式 解释 的 文本 ， 需 要 用 大 括号 把 文本 括 起 来 。 

满足 要 求 的 方法 如 图 12-10 所 示 。 在 该 查询 中 ， 插 号 里 面 的 表达 式 $m/tit1e 和 
$m/Version/Star 更 适 于 解释 为 XPath 表达 式 。 正 如 所 期 望 的 ， 文 本 字符 串 替 换 了 第 一 个 表达 
式 ， 而 Star 元 素 序列 替换 了 第 二 个 。 


let $movies := doc('"movies.xml'") 
for $m in $movies/Movies/Movie 


return <Movie title ="{ $m/@title}">{$m/Version/Star}</Movie> 





图 12-10 加 上 大 括号 解决 问题 
例 12.13 这 个 例子 不 仅 进一步 说 明了 大 括号 let $starSeq := ( 


的 使 用 促进 了 表达 式 的 解 胖 ， 也 强调 了 在 允许 任何 |。 3e Soories donenviosmn 
种 类 表达 式 的 情况 下 ，XQuery 表 达 式 该 如 何 使 用 。 return $m/Version/Star 


本 例 的 目标 是 复制 例 12.12 的 结果 ， 得 到 Star 元 素 | ) 、 
的 序列 ,而 且 还 要 使 影星 的 整个 序列 在 Star 元 素 中 。 return <Stars>{$starSeq}</Stars 
这 里 不 能 使 用 图 12-10 中 的 技巧 用 Stars 代 替 Star， 图 12-11 在 序列 周围 放置 标签 
因为 那 将 在 分 开 的 影星 组 周围 放置 许多 Stars 标 签 。 

图 12-11 完 成 了 这 个 工作 。 我 们 将 例 12.12 查 询 产 生 的 Star 元 素 序 列 赋值 给 局 部 变量 
$starSeq， 然 后 返回 那个 由 标签 包围 的 序列 ， 变 量 被 仔细 地 装 入 括号 中 ， 这 样 它 被 计算 求 值 
而 不 需 逐 字 处 理 。 口 
12.2.4 XQuery 中 的 连接 

XQuery 中 可 以 连接 两 个 或 者 多 个 文档 ， 这 与 5QL 中 连接 两 个 或 者 多 个 关系 的 方法 相同 。 
每 种 情形 下 都 需要 变量 ， 变 量 的 取 值 范围 分 别 是 文档 之 一 的 元 素 或 者 关系 之 一 的 元 组 。SQL 
中 ， 使 用 from 子 名 引进 所 需要 的 元 组 变量 (这 可 能 只 是 表 名 本 身 ) ; XQuery 中 使 用 for 子 句 。 

然而 ， 怎 样 在 连接 中 做 比较 必须 非常 小 心 。 首 先 ， 存 在 比较 操作 符 的 问题 ， 如 序列 上 的 . 
“=” 或 者 “<” 操 作 ， 其 含义 如 同 在 12.1.9 节 中 讨论 的 “存在 进行 比较 的 元 素 ” 的 意思 。 
12.2.5 节 中 将 继续 讨论 这 一 点 。 另 外 ， 元 素 的 相等 是 通过 “元 素 恒 等 ”( 与 “对 象 恒 等 ” 类 似 ) 。 
也 就 是 说 ， 即 使 每 个 字符 看 起 来 是 一 样 ， 一 个 元 素 也 不 一 定 等 于 另 一 个 元 素 。 幸 运 的 是 ， 通 
常 不 是 要 比较 元 素 ， 而 真正 比较 的 是 作为 它们 的 属性 和 子 元 素 值 出 现 的 基本 值 ， 如 字符 串 和 
整 型 。 比 较 操 作 符 如 预期 的 那样 在 基本 值 上 比较 ， 对 于 字符 串 ，< 是 “在 字典 序 中 是 在 前 的 ”。 

内 置 函 数 data(E) 抽 取 元 素 E 的 值 。 可 以 使 用 这 个 函数 从 元 素 中 抽取 文本 ， 该 元 素 是 具有 
匹配 标签 的 一 个 字符 串 。 

例 12.14 ”假设 要 找到 图 12-7b 的 movies .xm] 文 件 中 提 到 的 影星 的 居住 城市 。 为 得 到 城市 信 





322 莫 三 部 分 半 结 执 化 糙 据 的 建 模 和 程序 设 于 


息 需 要 参考 图 12-7a 的 stars .xm] 文 件 。 因 此 ， 设 定 在 movies .xm1 的 Star 元 素 范 围 取 值 的 变量 和 
在 stars .xm1 的 Star 元 素 的 范围 取 值 的 变量 。 当 movies.xml1 的 Star 元 素 中 的 数据 匹配 
stars.xm1 的 Star 元 素 的 Name 子 元 素 中 的 数据 时 ， 则 得 到 一 个 匹配 ， 并 且 抽 取 后 者 的 City 元 素 。 
图 12-12 显 示 了 一 个 解决 方案 。let 子 句 引 入 代表 两 个 文档 的 变量 。 和 前 面 一 样 ， 这 个 缩写 形 
式 不 是 必需 的 , 可 以 使 用 后 两 行 的 XPath 表 达 式 中 的 文档 节点 自身 。for 子 句 引 入 了 双重 垦 套 循环 。 
变量 $s1 取 值 范围 是 movies .xml 的 每 个 Star 元 素 ，$s2 取 值 范 围 是 stars .xml 的 每 个 Star 元 素 。 
where 子 句 使 用 内 置 函 数 data 来 抽取 字符 串 ， 字 符 串 是 元 素 $s1 和 $s2 的 值 。 最 后 ，return 
子 句 产生 一 个 City 元 素 。 口 


12.2.5 XQuery 比 较 操 作 符 
现在 考虑 另 一 个 难题 ， 其 中 事情 并 不 是 如 预期 的 那样 完全 执行 。 我 们 的 目标 是 找到 图 
12-7a 的 stars.xm1 中 住 在 123 Maple St.，Malibu 的 影星 。 第 一 个 尝试 如 图 12-13 所 示 。 


let $movies := doc("movies.xml'), 





$stars := doc("stars.xml") let $stars := doc("stars.xml") 
for $sl in $movies/Movies/Movie/Version/Star, || for $s in $stars/Stars/Star 
$s2 in $stars/Stars/Star Where $s/Address/Street = "123 Maple St.' and 
where data($s1) = data($s2/Name) $s/Address/City = "Malibun 
return $s2/Address/City return $s/Name 
图 12-12 寻找 影星 的 城市 图 12-13 找到 住 在 123 Maple St.，Malibu 的 影星 的 
一 个 错误 尝试 


where- 子 句 中 ， 用 字符 串 比 较 Street 元 素 和 City 元 素 ， 可 以 如 预期 的 那样 进行 比较 ， 因 
为 其 值 是 字符 串 的 元 素 被 强制 转换 到 那个 字符 串 ， 比 较 如 期 望 的 那样 是 成 功 的 。 当 用 图 12-7 
的 第 (3) 到 第 (13) 行 的 Star 元 素 作 为 $s 的 值 时 ， 问 题 出 现 了 。 然 后 ，XPath 表 达 式 
$s/Address/Street 生 成 第 (6) 行 和 第 (10) 行 的 两 个 元 素 序 列 作 为 它 的 值 。 因 为 对 于 等 于 操作 
符 ， 如 果 任 一 项 对 (等 号 两 边 的 项 ) 相等 ，= 操 作 符 返 回 true， 则 第 一 个 条 件 的 值 是 true， 在 
强制 转换 后 ， 第 (6) 行 等 于 字符 串 “123 Maple St.”。 类 似 地 ， 第 二 个 条 件 与 有 字符 串 
“Malibu” 的 第 (7) 行 和 第 (11) 行 的 两 个 City 元 素 的 列表 作 比 较 ， 发 现 第 (11) 行 相等 。 结 果 是 返 
回 Carrie Fisher[ 第 (4) 行 ] 的 Name 元 素 。 

但 是 Carrie Fisher 不 住 在 123 Maple St.，Malibu。 她 住 在 123 Maple St.，Hollywood， 和 
Malibu 不 是 一 个 地 方 。 比 较 的 存在 型 本 质 使 得 查询 失败 于 从 不 同 地 址 得 到 了 街道 和 城市 。 

XQuery 提 供 了 一 组 比较 操作 符 集 ， 它 们 仅仅 只 比较 由 一 个 单项 组 成 的 序列 ， 如 果 任 一 操 
作 数 是 多 个 项 的 序列 ， 则 比较 失败 。 这 些 操作 符 是 比较 的 两 个 首 字 母 的 缩写 词 : eq、ne、1t、 
gt 、1e 和 ge。 当 将 一 个 字符 串 与 几 个 街道 或 城市 真正 做 比较 时 ,可 以 使 用 eq 代替 “=”。 修 正 
过 的 查询 如 图 12-14 所 示 。 let $stars := doc("stars.xml") 

该 查询 中 ，Carrie-Fisher 元 素 不 能 for $s in $stars/Stars/Star hk 
通过 where 子 名 的 测试 ， 因 为 eq 操作 符 | ge/ndaress/city oq 和 alibam 
的 左边 不 是 单一 的 项 ， 因 此 比较 失败 。 return $s/Name 
不 幸 的 是 ， 它 将 不 能 给 出 任何 有 两 个 或 。 图 12-14 找到 住 在 123 Maple St.，Malibu 影 星 的 又 一 
多 个 地 址 的 影星 ， 即使 这 些 地 址 中 有 一 个 错误 尝试 
个 是 123 Maple St.,Malibu。 不 管 使 用 比 
较 操 作 符 的 哪 一 个 版 本 ， 写 一 个 正确 的 查询 都 是 环 手 的 事情 ， 在 此 将 写 一 个 正确 的 查询 留 作 
为 习题 。 
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12.2.6 消除 重复 

通过 使 用 内 置 函数 distinct-values，XQuery 可 以 在 任何 种 类 的 序列 中 消除 重复 。 可 是 ， 
必须 注意 到 有 一 微妙 之 处 。 严 格 来 说 ，distinct-values 适 用 于 基本 类 型 。 它 将 去 除 标记 为 
文本 -字符 串 元 素 中 的 标签 ， 但 它 不 会 把 标签 加 回去 。 因 此 ，distinct-values 的 输入 可 以 是 
元 素 列 表 和 字符 串 列 表 。 

例 12.15 图 12-11 从 所 有 电影 集合 中 收集 所 有 Star 元 素 ， 并 作为 序列 返回 。 然 而 ， 在 儿 部 电影 
中 出 演 的 影星 在 序列 中 多 次 出 现 。 若 子 查询 的 结果 是 变量 $starseq 的 值 ， 则 对 该 值 使 用 distinct- 
values 几 乎 可 以 消除 所 有 Star 元 素 的 副本 ， 仅 保留 一 个 Star 元 素 。 新 的 查询 如 图 12-15 所 示 。 

注意 ， 该 查询 生成 的 是 一 连 串 由 Stars 标 签 包 围 的 的 影星 名 字 ， 如 ; 

<Stars> Fay Wray Jeff Bridges ::. </Stars> 


比较 图 12-11 中 版 本 产生 的 结果 


<Stars><Star>Fay Wray</Star> <Star>Jeff Bridges</Star> ..: 
</Stars> 


可 见 这 里 有 重复 生成 。 口 


12.2.7 XQuery 中 的 量词 

事实 上 有 “所 有 ”和 “存在 ”表达 式 。 它 们 的 形式 分 别 是 : 

every variable in ezpressiomnl satisfies erpression2 

some variable in erpressionl satisfies erpression2 
这 里 ，expression1 生 成 项 的 序列 ， 变 量 依次 采用 每 项 作为 它 的 值 。 对 每 个 这 样 的 值 ， 计 算 
expression2 (通常 包含 那个 变量 ) 的 值 ， 并 且 生 成 一 个 布尔 值 。 

在 “every” 版 中 ， 如 果 expression1 生 成 的 某 一 项 使 expression2 值 为 false， 则 整个 表达 式 
的 结果 为 false; 反之 ， 如 果 expression1 生 成 的 所 有 项 使 expression2 值 为 true， 则 结果 为 true。 
在 “some” 版 中 ， 如 果 expression1 生 成 的 某 一 项 使 expression2 值 为 true， 则 整个 表达 式 的 结果 
为 true; 反之 ， 如 果 expression1 生 成 的 所 有 项 使 expression2 值 为 false ， 则 结果 为 false。 

let $starSeq := distinct-values( 


let $movies := doc("movies .xml'") let $stars := doc("stars.xml'") 
for $m in $movies/Movies/Movie for $s in $stars/Stars/Star 


return $m/Version/Star where every $c in $s/Address/City satisfies 
$c = "Hollywood" 
return <Stars>{$starSeq}</Stars> return $s/Name 





图 12-15 消除 重复 的 影星 图 12-16 找 出 仅 住 在 Hollywood 的 影星 


例 12.16 使 用 图 12-7a 的 stars.xml 文 件 中 的 数据 ， 找 到 那些 仅仅 住 在 Hollywood 且 无 其 
他 住处 的 影星 。 也 就 是 ， 不 管 他 们 有 多 少 个 地 址 ， 其 城市 都 是 Hollywood。 图 12-16 显 示 了 如 
何 写 这 个 查询 。 注 意 ，$s/Address/City 生 成 影星 $s 的 City 元 素 序列 。 当 且 仅 当 那 个 列表 上 
的 每 个 元 素 都 是 <City>Ho11ywood</City> 时 ，where 子 句 才 满足 。 

顺便 说 一 下 ， 可 以 将 “every” 换 成 “some”， 并 找到 在 Hollywood 至 少 有 一 所 房子 的 影星 。 
然而 ， 很 少 需要 使 用 “some” 版 ， 因 为 XQuery 中 大 多 数 测试 都 是 存在 量词 的 意思 。 例 如 ， 


let $stars := doc('"stars.xml') 

for $s in $stars/Stars/Star 

where $s/Address/City = "Hollywood" 
return $s/Name 
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将 生成 在 Hollywood 有 房子 的 影星 ， 这 里 没有 使 用 “some” 表 达 式 。 回 顾 12.2.5 节 中 讨论 的 比 
较 ， 例 如 =， 其 一 边 或 者 两 边 是 多 个 项 的 序列 ， 如 果 两 边 的 任何 一 项 匹配 时 ， 比 较为 tue。 口 


12.2.8 聚集 
XQuery 提 供 内 置 函 数 来 计算 常用 的 聚集 ， 例 如 计数 、 求 和 或 者 最 大 值 。 它 们 采用 任何 一 
个 序列 作为 参数 ， 也 就 是 说 ， 可 以 在 任何 XQuery 表 达 式 的 结果 中 使 用 它们 。 
例 12.17 检查 图 12-7b 的 movies .xm1 文 件 中 的 数 let $movies := doc('"movies.xml") 
据 ， 并 生成 那些 有 多 个 版 本 的 Movie 元 素 。 图 12-17 做 for $m in $movies/Movies/Movie 
了 这 样 的 工作 。XPath 表 达 式 $m/Version 为 电影 $m 生 | “sre count (Sn/Version) > 1 
成 Version 元 素 序 列 。 计 数 序列 中 项 的 数目 。 如 果 计 数 
超过 1， 则 满足 where 子 句 ， 并 且 将 电影 元 素 $m 追 加 到 
结果 中 。 口 


12.2.9 XQuery 表 达 式 中 的 分 支 

XQuery 中 有 if-then-else 表 达 式 ， 形 式 如 下 : 

if (ezpression!l) then erpression2 else ezpression? 
为 计算 这 个 表达 式 的 值 ， 首 先 计算 expression1 的 值 。 如 果 它 是 真 ， 计 算 expression2 的 值 ， 这 
也 是 整个 表达 式 的 结果 。 如 果 expression1 的 值 为 假 ， 整 个 表达 式 的 结果 是 expression3。 

这 个 表达 式 不 是 语句 一 一 XQuery 中 没有 语句 ， 只 有 表达 式 。 因 此 ， 它 类 似 C 中 的 ? :表达 式 ， 
而 不 是 让 then-else 语 句 。 和 C 中 的 表达 式 一 样 ， 决 不 可 以 省 略 “else” 部 分 。 然 而 ， 可 以 使 用 空 
序列 作为 expression3， 用 0) 表示 。 当 测试 -条 件 不 满足 时 ， 这 种 选择 使 条 件 表达 式 生 成 空 序列 。 

例 12.18 本 例 的 目标 是 生成 King Kong 的 每 一 个 版 本 ,标记 最 新 版 本 Latest 和 较 早 的 版 
本 01d。 在 第 (1) 行 ， 设 定 变量 $kk 为 King Kong 的 Movie 元 素 。 注 意 ,该 行 中 已 经 使 用 一 个 
XPath 条 件 ， 以 确定 只 生成 那 一 个 元 素 。 当 然 ， 如 果 有 几 个 含有 标题 King Kong 的 Movie 元 素 ， 
那么 这 几 个 元 素 全 部 会 在 项 的 序列 中 ， 该 序列 是 $kk 的 值 ， 而 这 个 查询 没有 意义 。 可 是 ， 因 为 
已 经 显 式 地 聚集 了 相同 片 名 的 电影 版 本 ， 所 以 可 以 假定 这 个 结构 中 片 名 是 电影 的 键 。 








图 12-17 查找 多 个 版 本 的 电影 








let $kk := 
doc("movies.xml")/Movies/Movie[Q@title = "King Kong"] 
for $v in $kk/Version 


return 
if ($v/Qyear = max($kk/Version/Q@year)) 
then <Latest>{$v}</Latest> 
else <01ld>{$v}</01d> 





图 12-18 标记 King Kong 的 版 本 


第 (2) 行 引起 $v 在 King Kong 的 所 有 版 本 上 迭代。 对 每 一 个 这 样 的 版 本 ， 返 回 两 个 元 素 之 
一 。 为 了 知道 是 哪 一 个 元 素 ， 计 算 第 (4) 行 条 件 的 值 。 等 号 右边 是 King Kong 任 一 版 本 的 最 大 
年 份 ， 左 边 是 版 本 $v 的 年 份 。 如 果 它 们 相等 ， 那 么 $v 是 最 新 版 本 ， 并 且 生 成 第 (5) 行 的 元 素 。 
如 果 不 相 等 ， 那 么 $v 是 一 个 旧版 本 ,并 且 生 成 第 (6) 行 的 元 素 。 口 


12.2.10 查询 结果 排序 
如 果 在 return 子 句 前 加 order 子 句 ， 就 可 以 对 FLWR 查 询 的 部 分 结果 排序 。 事 实 上 ， 这 里 一 
直 关 注 的 查询 形式 通常 称 为 FELWOR (仍然 发 音 为 “flower”)， 通 知 order 子 句 是 可 选项 。 这 个 
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子 句 的 形式 是 : 

order by 表达 式 列 表 
排序 是 基于 第 一 个 表达 式 的 值 ， 链 带 被 第 二 个 表达 式 的 值 打 破 ， 等 等 。 默 认 排 序 是 升序 ， 但 
给 表达 式 后 加 关键 字 descending 则 使 结果 降序 排列 。 

这 里 的 排序 与 SQL 中 的 类 似 。 仅 在 到 达 查 询 处 理 输出 的 阶段 之 前 《SQL 中 SELECT 子 句 ， 
XQuery 中 return 子 句 ) ， 先 前 子 句 的 结果 被 汇总 和 排序 。 就 SQL 而 言 ， 中 间 结 果 是 一 组 元 组 的 
绑 定 集 ， 这 些 元 组 是 EROM 子 句 中 涉及 的 每 个 关系 的 元 组 变量 。 特 别 是 ， 它 们 是 能 通过 WHERE 
子 句 测试 的 元 组 绑 定 。 

XQuery 中 ， 可 认为 中 间 结 果 是 变量 到 值 的 绑 定 。 变 量 是 在 order 子 名 之 前 的 for 子 句 和 let 子 
句 中 定义 ， 序 列 是 由 所 有 通过 where 子 句 测试 的 绑 定 组 成 。 每 个 这 样 的 绑 定 被 用 来 计算 order 子 
句 中 表达 式 的 值 ， 而 那些 表达 式 的 值 支配 了 该 绑 定 在 所 有 绑 定 序 中 的 位 置 。 一 旦 得 到 绑 定 的 
顺序 ， 就 依次 使 用 它们 来 计算 return 子 句 中 表达 式 的 值 。 

例 12.19 ”考虑 所 有 电影 的 所 有 版 本 ， 按 年 份 给 它们 排序 ， 并 且 生 成 有 片 名 和 年 份 作为 属 
性 的 Movie 元 素 序 列 。 数 据 照常 是 从 图 12-7b 中 movies .xm] 文 件 中 得 到 。 查 询 如 图 12-19 所 示 。 


let $movies := doc(''movies.xml") 
for $m in $movies/Movies/Movie, 


$v in $m/Version 
order by $v/Q@year 
return <Movie title = "{$m/Qtitle}'" year = "{$v/Q@year}" /> 


图 12-19 构造 片 名 -年 份 对 的 序列 ， 按 年 份 排序 


当 到 达 order 子 句 时 ， 绑 定 为 三 个 变量 $movies、$m 和 $v 提 供 值 。 值 doc(“movies . 
xm1”) 被 限定 到 每 一 个 这 样 绑 定 的 $movies。 然 而 gm 和 $v 的 值 不 同 ， 对 电影 和 那 部 电影 版 本 
组 成 的 每 一 对 ， 对 这 两 个 变量 将 有 一 个 绑 定 。 例 如 ， 第 一 个 这 样 的 绑 定 关联 图 12-7b 的 第 (17) 
到 第 (26) 行 中 的 $m 元 素 ， 与 $v 元 素 关联 的 是 第 (18) 到 第 (20) 行 中 的 元 素 。 

通过 $v 被 绑 定 到 的 元 素 中 的 属性 year 的 值 ， 将 绑 定 排序 。 可 能 有 很 多 相同 年 份 的 电影 ， 
怎样 排序 这 些 电影 并 不 确定 。 结 果 是 ， 一 个 给 定年 份 的 电影 一 版 本 对 将 以 某 种 顺序 一 起 出 现 ， 
每 个 年 份 的 分 组 将 是 按 年 份 的 升序 排序 。 如 果 要 确定 绑 定 的 总 体 顺 序 ， 举 例 来 说 ， 可 以 在 
order- 子 句 中 给 列表 添加 另 一 个 项 ， 例 如 : 

order by $v/@year, $m/@title 
从 而 打破 原来 所 有 相同 年 份 值 组 合 在 一 起 的 现象 。 

在 绑 定 排序 后 ， 每 个 绑 定 按 选 择 的 顺序 传递 给 return 子 句 。 通 过 替换 return 子 句 中 的 变量 ， 
从 每 个 绑 定 中 生成 一 个 单一 的 Movie 元 素 。 口 


12.2.11 习题 
习题 12.2.1 使 用 图 12-4 和 图 12-5 的 产品 数据 ， 用 XQuery 写 出 下 面 的 查询 。 
a) 找 出 价格 小 于 100 的 Printer 元 素 。 
b) 找 出 价格 小 于 100 的 Printer 元 素 ， 并 且 生 成 一 个 由 标签 <CheapPrinters> 包 围 的 元 素 序列 。 
!c) 找 出 生产 打印 机 和 笔记 本 电脑 的 制造 商 名 字 。 
!d) 找 出 那些 生产 至 少 两 种 3.00 或 3.00 以 上 速度 的 PC 的 制造 商 名 字 。 
le) 找 出 生产 的 每 种 PC 的 价格 不 高 于 1000 的 制造 商 。 
! 产生 如 下 形式 的 元 素 序列 : 
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<Laptop><Model>z</Model><Maker>y</Maker></Laptop> 
其 中 x 是 模型 序号 ，y 是 笔记 本 电脑 制造 商 的 名 字 。 
习题 12.2.2 使 用 图 12-6 的 战舰 数据 ， 用 XQuery 写 出 下 面 的 查询 。 
a) 找 出 至 少 有 十 门 炮 的 类 的 名 字 。 
b) 找 出 至 少 有 十 门 炮 的 战舰 的 名 字 。 
c) 找 出 已 沉没 的 船 的 名 字 。 
d) 找 出 有 至 少 3 艘 战舰 的 类 的 名 字 。 
!e) 找 出 那些 类 中 没有 战舰 参加 过 战斗 的 类 的 名 字 。 
1D 找 出 至 少 有 两 艘 战舰 在 同一 年 下 水 的 类 的 名 字 。 
!8g) 生成 如 下 形式 的 项 序列 
<Battle name = ><Ship name = W />...</Battle> 
其 中 x 是 战斗 的 名 字 ，y 是 战斗 中 舰 的 名 字 。 序 列 中 可 能 有 多 个 Ship 元 素 。 
! 习 题 12.2.3 ”解决 12.2.5 市 中 的 问题 ; 找 出 居住 在 给 定 地 址 的 影 星 (即使 他 们 有 多 个 其 他 地 址 )， 要 求 
所 写 的 查询 不 会 找 出 没有 住 在 那个 地 址 的 影 
! 习 题 12.2.4 是 否 存在 这 样 的 表达 式 E 和 F， 全 查考 革 天 eveiy $x inEsatisfies FF 为 真 , 但 some $x 
in E satisfies 所 为 假 ? 给 出 一 个 例子 或 者 解释 为 什么 不 存在 。 


12.3 扩展 样式 表 语言 


XSLT (转换 扩展 样式 表 语言 ) 是 万 维 网 联盟 的 一 个 标准 。 它 的 最 初 目 的 是 把 XML 文 档 转 换 成 
HTML 或 者 相似 的 格式 ， 使 得 文档 可 视 或 者 可 打印 。 然 而 ， 实 际 上 XSLT 是 另 一 种 XML 查询 语言 。 像 
XPath 或 者 XQuery 一 样 ， 可 以 使 用 XSLT 从 文档 中 抽取 数据 ， 或 者 把 一 种 文档 格式 转换 成 另 一 种 格式 。 


12.3.1 XSLT 基 础 
像 XML 模式 一 样 ，XSLTI 规 范 是 XML 文档 ， 这 些 规范 通常 称 为 样式 表 (stylesheets)。XSLT 使 用 
的 标签 可 以 在 http/www:w3. org/ 1999/XSL/Transform 命 名 空间 中 找到 。 因 此 ， 在 最 高 层 上 ， 样 式 表 看 


起 来 类 似 图 12-20。 
<? Xml version = "2.0" encoding = "utf-8" ?> 

12.3.2 模板 <xsl:stylesheet xmlns:xsl = 

一 个 样式 表 有 一 个 或 多 个 模板 "http://www.w3.org/1999/XSL/Transform"> 
. (template) 。 为 在 XML 文档 中 使 用 样式 表 ， <Jxaliatyieaheaty 
沿 着 模板 的 列表 向 下 直到 找到 匹配 根 节 点 
的 一 个 模板 。 随 着 处 理 的 继续 ， 常 常 需要 
找到 幅 套 在 文档 里 的 元 素 的 匹配 模板 。 如 果 是 这 样 的 话 ， 通过 匹配 规则 为 一 个 匹配 再 次 搜索 模 
板 列表 。 本 节 中 将 学 习 匹配 规则 。 最 简单 的 模板 标签 形式 是 ， 

<xsl:template matc = "XPath 表达 式 "> 
XPath 表达 式 或 是 根 的 〈 以 斜 线 开始 ) 或 是 相对 的 ， 都 是 描述 使 用 该 模板 的 一 个 XML 文档 元 
素 。 如 果 表 达 式 是 根 的 ， 那 么 和 路 径 相 匹配 的 文档 的 每 个 元 素 使 用 模板 。 当 模板 7 中 有 标签 
<xs1:app1y-templates> 时 ， 使 用 相对 表达 式 。 这 种 情形 下 ， 在 元 素 的 子 节点 中 看 使 用 哪个 7。 
这 样 ， 可 以 按 深度 优先 方式 遍历 XML 文档 树 ， 在 文档 上 执行 一 个 复杂 的 转换 。 

模板 的 最 简单 内 容 是 文本 ， 典 型 的 是 HTML。 当 模板 匹配 一 个 文档 时 ， 生 成 那个 文档 里 
的 文本 作为 输出 。 在 正文 里 能 够 调用 模板 应 用 于 子 节点 和 /或 者 从 文档 本 身 获 得 值 ， 例 如 ， 从 
当前 元 素 的 属性 获得 值 。 





图 12-20 XSLT 样 式 表 的 形式 
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<? xml Version = "2.0" encoding = "utf-8" ?> 
<xsl:stylesheet xmlns:;xsl = 
"http://wwuw.w3.org/1999/XSL/Transform"> 
<xsl:template match = "/"> 
<HTML> 


<BODY> 
<B>This is a documnent</B> 
</BODY> 
</HTML> 
</xsl:template> 
</xsl:stylesheet> 





图 12-21 打印 输出 任 一 文档 


例 12.20 ”图 12-21 里 是 一 个 非常 简单 的 样式 表 。 它 适应 于 任何 文档 ， 并 且 生 成 相同 的 
HTML 文 档 ， 而 不 管 它 的 输入 是 什么 。 这 个 HTML 文 档 用 黑体 字 表 示 “ 这 是 一 个 文档 ”。 

第 (4) 行 引入 样式 表 中 的 一 个 模板 。match 的 属性 值 是 “/， 它 只 匹配 根 节点 。 模 板 体 ， 即 
第 (5) 到 第 (9) 行 ， 是 简单 的 HTML。 当 生成 这 些 行 作为 输出 时 ， 结 果 文 件 可 以 看 作 HTML， 并 
且 通 过 一 个 浏览 器 或 者 其 他 HTML 处 理 器 来 显示 。 口 


12.3.3 从 XML 数据 中 获取 值 
像 例 12.20 那 样 不 依赖 转换 的 输入 生成 文档 的 方式 并 不 常见 。 从 输入 中 抽取 数据 的 最 简单 
方法 是 用 value-of 标 签 。 这 个 标签 的 形式 是 : 


<xs1:Value-of select = "表达 式 "/> 


表达 式 是 一 个 XPath 表达 式 ， 它 应 该 生成 一 个 字符 串 作 为 值 。 其 他 值 (如 包含 文本 的 元 素 ) 以 
显 式 的 方式 强制 转换 成 字符 串 。 

例 12.21 图 12-22 重 新 生成 了 在 12.2 节 中 作为 例子 使 用 过 的 文件 movies .xml1。 在 这 个 样式 表 的 例 
子 中 ， 将 使 用 value-of 来 获得 电影 的 所 有 片 名 ， 并 且 打 印 它们 ， 一 个 一 行 。 样 式 表 如 图 12-23 所 示 。 


<?xml version="2.0" encoding="utf-8" standalone='"yes" ?> 
<Movies> 
<Movie title = "King Kong"> 
<Version year = "1933"> 
<Star>Fay Wray</Star> 
</Version> 
<Version year = "1976"> 
<Star>Jeff Bridges</Star> 
<Star>Jessica Lange</Star> 
</Version> 


<Version year = "2005" /> 
</Movie> 


<Movie title = "Footloose"> 
<Version year = "1984"> 
<Star>Kevin Bacon</Star> 
<Star>John Lithgow</Star> 
<Star>Sarah Jessica Parker</Star> 
</Version> 
</Movie> 
.. more movies 
</Movies> 





图 12-22 文件 movies .xml 
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<? 了 Xml version = "2.0'" encoding = "utf-8" ?> 
<xsl:;stylesheet xmlns:xsl = 
"http://www.w3.org/1999/XSL/Transform"> 
<xsl:template match = '"/Movies/Movie"> 


<xsl:value-of select = "@title'" /> 
<BR/> 
</xsl:template> 
</xsl:stylesheet> 





图 12-23 打印 电影 的 标题 


在 第 (4) 行 ， 模 板 匹 配 每 一 个 Movie 元 素 ， 所 以 一 次 一 个 处 理 它们 。 第 (5) 行 使 用 带 有 XPath 
表达 式 etit1e 的 value-of 操 作 。 也 就 是 说 ， 定 位 到 每 个 Movie 元 素 的 tit1e 属 性 并 采用 那个 属 
性 的 值 。 生 成 的 这 个 值 作为 输出 ， 紧 接着 第 (6) 行 的 是 HTML 换 行 标签 ， 所 以 下 一 个 电影 片 名 
将 在 下 一 行 打印 。 口 


12.3.4 模板 的 递归 应 用 

最 有 趣 且 最 有 力 的 转换 需要 对 输入 的 各 种 元 素 递归 地 应 用 模板 。 已 经 选 出 一 个 模板 来 适 
用 于 输入 文档 的 根 节点 ， 通 过 使 用 app1y-temp1ates 标 签 ， 可 以 要 求 它 的 每 一 个 子 元 素 使 用 模 
板 。 如 果 想 要 某 一 模板 仅 对 子 元 素 的 某 一 子 集 使 用 ， 例 如 具有 某 一 标签 的 那些 子 元 素 ， 那 么 
可 以 使 用 Select 表达 式 : 

<xs1:apply-templates select =“" 表 达 式 "/> 

当 在 模板 里 面 遇 到 这 种 标签 时 ， 找 出 当前 元 素 (模板 正在 被 应 用 到 的 元 素 ) 的 匹配 子 元 
素 集 。 对 每 一 个 子 元 素 ， 找 出 匹配 的 第 一 个 模板 并 在 子 元 素 中 使 用 它 。 

例 12.22 ”该 例 将 使 用 XSLT 把 一 个 XML 文档 转换 成 另 一 个 XML 文档 ， 而 不 是 转换 成 一 个 
HTML 文 档 。 检 查 图 12-24。 图 中 有 四 个 模板 ， 它 们 一 起 处 理 图 12-22 格 式 中 的 电影 数据 。 第 一 
个 模板 ， 第 (4) 行 到 第 (8) 行 ， 匹 配 根 节 点 。 输 出 文本 《Movies>， 然 后 在 根 元 素 的 子 节点 中 使 用 
模板 。 本 来 要 指定 仅 有 标记 为 《Movie> 的 子 节 点 使 用 模板 ， 但 是 因为 子 节点 中 没有 其 他 标签 ， 
所 以 没有 指定 : 

6) <xsl:apply-templates select = "Movie" /> 

注意 ，<Movie> 子 节点 ( 它 将 导致 许多 元 素 的 打印 ) 应 用 模板 后 ， 使 用 第 (7) 行 合适 的 结 
束 标 签 在 输出 中 结束 <Movies> 元 素 。 同 时 还 可 以 看 出 输出 文本 中 的 标签 (如 第 (5) 行 和 第 (7) 行 ) 
和 XSLT 标 签 的 差别 ， 因 为 所 有 XSLT 标 签 必 须 来 自 xs1 命 名 空间 。 

现在 看 看 <Movies> 元 素 中 使 用 模板 都 做 了 些 什 么 。 匹 配 这 些 元 素 的 第 一 个 ( 且 仅 有 的 ) 
模板 是 第 二 个 ， 即 在 第 (9) 到 第 (15) 行 。 该 模板 开始 于 第 (10) 行 的 输出 文本 <Movie title ="。 
然后 ， 第 (11) 行 获得 电影 的 片 名 ， 并 且 发 送 给 输出 。 第 (12) 行 在 输出 中 结束 括 起 的 属性 值 和 
<Movie> 标 签 。 第 (13) 行 应 用 模板 到 电影 的 所 有 子 节 点 ， 这 应 该 是 版 本 。 最 后 ， 第 (14) 行 发 出 
匹配 的 </Movie> 结 束 标签 。 

当 第 (13) 行 要 求 应 用 模板 到 电影 的 所 有 版 本 时 ， 唯 一 的 匹配 模板 是 第 (16) 到 第 (18) 行 的 模 
板 ， 它 除了 应 用 模板 到 版 本 的 子 节 点 外 疫 有 做 任何 事情 ， 这 应 该 是 Star> 元 素 。 因 此 ， 每 个 
开始 <Movie> 标 签 和 它 的 匹配 结束 标签 之 间 生 成 的 内 容 是 由 第 (19) 行 到 第 (23) 行 的 最 后 一 个 模 
板 决 定 。 这 个 模板 被 应 用 到 每 个 《Star> 元 素 。 
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<?xml version = "2.0" encoding = "utf-8" ?> 
<xsl:stylesheet xmlns:xsl = 
"http://wwuw.w3.org/1999/XSL/Transform"> 


<xsl:template match = "/Movies'"> 
<Movies> 
<xsl:apply-templates /> 
</Movies> 

</xsl:template> 


<xsl:template match = "Movie"> 
<Movie title = " 
{data(@ title)} 
n> 
<xsl:apply-templates /> 
</Movie> 

</xsl:template> 


<xsl:template match = "Version'"> 
<xsl:apply-templates /> 
</xsl:template> 


<xsl:template match = "Star"> 
<Star name = " 
{data( .)} 
+ /> 

</xsl:template> 


</xsl:stylesheet> 





图 12-24 转换 movies .xml 文 件 


输入 的 影星 元 素 在 输出 中 被 转换 。 代 。 [Fanovies; 
替 作 为 文本 的 影星 的 名 字 (如 同 它 在 图 oris ”Wagner 


<Star name = "Fay Wray" /> 


12-22 中 一 样 ) 9 第 (19) 行 开始 的 模板 生成 <Star name = "Jeff Bridges" /> 
用 名 字 作 为 属性 的 一 个 <Star> 元 素 。 第 <Star name = "Jessica Lange" /> 
(21) 行 表示 选择 <Star> 元 素 本 身 《和 XPath see = "Footloose"> 
表达 式 一 样 ， 点 代表 “自身 ”) 作为 输出 <Star name = "Kevin Bacon" 
<S = "John Lithgow" /> 
的 一 个 值 。 然而 ， 所 有 的 输出 是 文本 ， 所 < = ji i Parker" /> 


以 元 素 的 标签 不 是 输出 的 部 分 。 这 个 结果 </Movie> | 

正 是 想 要 的 ， 由 于 属性 name 的 值 应 该 是 一 A .+.: more movies 
个 字符 串 ， 而 不 是 一 个 元 素 。 第 (22) 行 完 
成 了 空 的 <Star> 元 素 。 例 如 ， 给 定 图 
12-22 的 输入 ， 输 出 将 如 图 12-25 所 示 。 口 


12.3.5 XSLT 中 的 迭代 
可 以 在 模板 里 面 安置 循环 ， 从 而 可 以 自由 访问 正在 应 用 模板 的 元 素 的 某 些 子 元 素 的 顺序 。 
for-each 标 签 创建 循环 ， 其 格式 是 : 


<xs1:for-each select = "表达 式 "> 


表达 式 是 XPath 表 达 式 ， 它 的 值 是 项 的 序列 。 在 <for-each> 开 始 标 签 和 它 匹配 的 结束 标签 之 间 





图 12-25 图 12-24 转 换 的 输出 
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的 任何 内 容 依次 执行 每 一 项 。 
例 12.23 图 12-26 是 文档 stars.xm1 的 一 个 副本 。 需要 将 其 转换 成 影星 所 有 名 字 的 HTML 列 表 ， 
紧 接 着 的 是 影星 居住 的 所 有 城市 的 HTML 列 表 。 图 12-27 中 显示 了 完成 这 个 工作 的 模板 。 


<?xml version="2.0" encoding='utf-8" standalone="yes'" ?> 
<Stars> 
<Star> 
<Name>Carrie Fisher</Name> 
<Address> 


<Street>123 Maple St,</Street> 
<City>Hollywood</City> 


</Address> 

<Address> 
<Street>5 Locust Ln.</Street> 
<City>Malibu</City> 

</Address> 

</Star> 
, more stars 
</Stars> 





图 12-26 文档 stars .xm] 


<? Xml version = "2.0" encoding = "utf-8" ?> 
<xsl:stylesheet xmlns:xsl = 
"http://wuw.w3.org/1999/XSL/Transform"> 
<xsl:;template match = "/"> 
<0L> 
<xsl:for-each select = "Stars/Star"> 
<LI> 
<xsl:value-of select = "Name'" /> 
<LI> 
</xsl:for-each> 


</0L> <P/><0L> 
<xsl:for-each select = "Stars/Star/Address" > 
<LI> 


<xsl:value-of select = "City"/> 
</LI> 
</xsl:for-each> 
</0L> 
</xsl:template> 
</xsl:stylesheet> 





图 12-27 打印 影星 的 名 字 和 城市 

有 一 个 匹配 根 节 点 的 模板 。 首 先 在 第 (5) 行 发 生 ， 其 中 HTML 标 签 <0L> 被 发 送出 去 以 开始 一 
个 有 序列 表 。 然 后 ， 第 (6) 行 开始 一 个 循环 ， 它 在 每 个 《<Star> 子 元 素 上 迭代 。 第 (7) 到 第 (9) 行 发 出 
有 那个 影星 名 字 的 项 的 列表 。 第 (11) 行 结束 名 字 列 表 并 且 开始 城市 列表 ;第 二 个 循环 ， 即 第 (12) 
到 第 (16) 行 ， 在 每 个 Address> 元 素 中 进行 ， 并 为 城市 发 出 列表 项 。 第 (17) 行 结束 第 二 个 列表 。 口 
12.3.6 XSLT 中 的 条 件 ] 

通过 使 用 if 标签 ， 可 以 引入 分 支 到 模板 中 。 该 标签 的 形式 是 : 

<xs1:if test = "布尔 表达 式 "> 
当 且 仅 当 布尔 表达 式 为 真 时 ， 无 论 在 这 个 标签 和 它 匹 配 的 结束 标签 间 出 现 什么 都 会 执行 。 这 
里 没有 else 子 句 ， 但 是 ， 通 过 紧 跟 在 这 个 表达 式 后 的 另 一 个 if〈 它 有 相反 测试 条 件 ) 可 以 获得 
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<?xml version = "2.0" encoding = "utf-8" ?> 
<xsl:stylesheet xmlns:xsl] = 
"http://wuw.w3.org/1999/XSL/Transform'"> 
<xsl:template match = "/"> 
<TABLE border = "5"><TR><TH>Stars</TH></TR> 
<xsl:for-each select = "Stars/Star" > 
<xsl:if test = "Address/City = ’Hollywood’"> 
<TR><TD> 


<xsl:value-of select = "Name" /> 
</TD></ TR> 
</xsl:if> 
</xsl:for-each> 
</ TABLE> 
</xsl:template> 
</xsl:stylesheet> 





图 12-28 找 出 住 在 Hollywood 的 影星 名 字 


例 12.24 ”图 12-28 是 一 个 样式 表 ， 它 打印 单列 的 表 ， 表 头 是 “Stars”"。 有 一 个 模板 ， 它 匹 
配 根 节点 。 该 模板 首先 做 的 是 ， 打 印 第 (5) 行 的 表 头 。 第 (6) 到 第 (12) 行 的 for-each 循 环 在 每 个 影 
星 上 迭代 。 第 (7) 行 的 条 件 测 试 是 否 影星 至 少 有 一 栋 房 子 在 Hollywood。 记 住 ， 如 果 左 边 的 任 
何 项 等 于 右边 的 任何 项 ， 则 等 号 表示 比较 为 true。 由 于 要 查询 影星 拥有 的 房子 中 的 任何 一 个 是 
否 是 在 Hollywood， 因 此 等 号 比较 正 是 题目 想 要 的 。 第 (8) 到 第 (10) 行 打印 表 的 行 。 口 


12.3.7 习题 
习题 12.3.1 ”假设 输入 的 XML 文档 有 图 12-4 和 图 12-5 的 产品 数据 的 格式 。 为 生成 下 列 各 项 文档 ， 写 出 
其 XSLT 样 式 表 。 
a) 由 一 个 后 接 所 有 制造 商 的 名 字 的 枚 举 列 表 的 表 头 “Manufacturers” 组 成 的 HTML 文 件 。 其 中 制造 
商 的 名 字 都 是 输入 列表 中 的 名 字 。 
b) 由 一 个 有 表 头 “Model” 和 “Price” 以 及 每 台 PC 的 一 行 的 表 组 成 的 HTML 文 件 。 该 行 应 该 有 PC 
的 适当 型 号 和 价格 。 
!c) 由 所 有 笔记 本 电脑 的 一 个 表 头 是 “Model”、“Price”、“Speed” 和 “Ram” 的 表 ， 跟 着 另 一 个 有 
相同 表 头 的 PC 的 表 组 成 的 HTML 文件。 
d) 有 根 标签 ?PCs> 和 含有 标签 PC> 的 子 元 素 的 XML 文件 。 这 个 标签 有 属性 mode1 、price、speed 和 ram。 在 输 
出 中 ， 对 于 输入 文件 的 每 个 4PC> 元 素 应 该 有 一 个 <PC> 元 素 ， 并 且 属 性 的 值 应 该 从 相应 的 输入 元 素 获 得 。 
!e) 有 根 标签 <Products> 的 XML 文件 ， 根 标签 的 子 元 素 是 4Product> 元 素 。 每 个 Product> 元 素 有 属 
性 type、maker 、mode1 和 price， 其 中 类 型 是 "PC"、"Laptop" 或 者 "Printer" 之 一 。 对 于 输入 文 
件 中 每 台 PC、 笔 记 本 电脑 和 打印 机 ， 在 输出 中 应 该 有 一 个 Product> 元 素 ， 且 可 以 从 输入 数据 中 
适当 地 选择 输出 值 。 
!f) 重复 (b) 部 分 ， 但 是 使 输出 文件 为 Latex 文 件 。 
习题 12.3.2 假设 输入 的 XML 文档 有 图 12-6 的 舰 船 数据 的 格式 。 为 生成 下 列 各 项 文档 ， 写 出 其 XSLT 样 式 表 。 
a) 对 于 每 个 类 有 表 头 的 HTML 文 件 。 每 个 表 头 下 面 是 一 个 表 ， 其 列 头 为 “Name” 和 “Launched ， 
类 的 每 艘 舰 船 有 适当 的 进入 点 。 
b) 有 根 标签 <Losers> 和 子 元 素 <Ship> 的 HTML 文 件 ， 它 的 每 一 个 值 是 已 沉 舰 船 之 一 的 名 字 。 
!c) 对 于 每 艘 船 有 根 标签 <Ships> 和 子 元 素 人 Ship> 的 XML 文件 。 每 一 个 元 素 应 该 有 属性 name、c1ass、 
country 和 numGuns ， 它 从 输入 文件 中 获得 适当 的 值 。 
!d) 重复 (c)， 但 是 只 列 出 那些 至 少 参加 一 场 战斗 的 船 。 
e) 除了 《Batt1e> 元 素 应 该 为 空 外 ， 与 输入 等 同 的 XML 文件 ， 其 结果 和 战斗 的 名 字 作为 两 个 属性 。 
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12.4 小 结 


。XPath:; 这 种 语言 是 表达 关于 XML 数据 的 许多 查询 的 简单 方法 。 通 过 标签 序列 从 文档 的 
根 节点 描述 路 径 。 路 径 可 以 属性 结束 而 不 是 以 元 素 结束 。 

。XPath 数 据 模 型 (XPath Data Model); 所 有 XPath 值 是 项 的 序列 。 项 是 一 个 基本 值 或 者 
是 一 个 元 素 。 一 个 元 素 是 开始 XML 标 签 、 它 配对 的 结束 标签 以 及 在 开始 标签 和 配对 的 

结束 标签 之 间 的 所 有 内 容 。 

“本 (Axes); 在 一 条 路 径 中 ， 不 再 是 沿 着 树 向 下 处 理 ， 可 以 沿 着 另 一 条 轴 处 理 ， 包 括 跳 
到 任 一 后 继 节 点 ， 即 一 个 父 节 点 或 者 一 个 兄弟 节点 。 

。XPath 条 件 (XPath Condition) : 一 条 路 径 中 任何 一 步 可 以 由 一 个 条 件 来 约束 ， 该 条 件 是 
一 个 布尔 值 的 表达 式 。 该 表达 式 出 现在 方 括号 中 。 

。XQuery; 这 种 语言 是 XML 文档 查询 语言 的 一 种 更 先进 的 形式 。 它 使 用 和 XPath 相同 的 数 
据 模 型 。XQuery 是 一 种 函数 语言 。 

。FLWR 表 达 式 (FLWR Expression): XQuery 中 的 很 多 查询 由 let、for、where 和 return 子 
句 组 成 。let 引 入 变量 的 临时 定义 ;for 创建 循环 ，where 提 供 要 被 测试 的 条 件 ，return 定 
义 查 询 的 结果 。 

。XQuery 和 XPath 中 的 比较 操作 符 (Comparison Operators in XQuery and XPath ) : 常规 的 
比较 操作 符 (如 <) 应 用 于 项 的 序列 ， 并 有 “存在 判断 ”的 含义 。 如 果 来 自 每 个 列表 中 
的 项 对 之 间 的 关系 成 立 ， 那 么 它们 为 真 。 为 确保 对 单一 的 项 进行 比较 ， 对 于 操作 符 可 以 
使 用 字母 编码 ， 如 1t 代 表 “less than”。 

。 其 他 XQuery 表 达 式 (Other XQuery Expression): XQuery 中 有 许多 类 似 于 SQL 的 操作 。 
这 些 操作 符 包 括 存在 的 通用 量词 、 聚 集 、 消 重复 和 结果 排序 。 

。XSLT: 尽管 这 种 语言 可 用 做 查询 语言 ， 但 它 是 为 XML 文档 的 转换 设计 的 。 该 语言 中 的 
“程序 ”是 XML 文档 格式 ， 有 特殊 的 命名 空间 以 允许 使 用 标签 来 描述 转换 。 

。 模 板 (Template): XSLT 的 核心 是 模板 ， 它 匹配 输入 文档 的 某 些 元 素 。 模 板 描述 了 输出 文本 ， 
且 为 输出 中 的 内 容 从 输入 文档 中 抽取 值 。 模 板 也 可 以 调用 模板 ， 递 归 地 应 用 到 元 素 的 子 节点 。 

。XSLT 设 计 组 件 (XSLT Programming Construct); 模板 也 可 以 包括 XSLT 组 件 ， 像 迭代 的 
程序 设计 语言 进行 运转 。 这 些 组 件 包括 for 循 环 和 i 语句 。 
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